Los modelos multimodales de Frontier suelen procesar una imagen en una sola pasada. Si se les escapa un número de serie en un chip o un pequeño símbolo en un plano de construcción, a menudo lo adivinan. La nueva capacidad Agentic Vision de Google en Gemini 3 Flash cambia esto al convertir la comprensión de imágenes en una herramienta activa que utiliza un bucle basado en evidencia visual.
El equipo de Google informa que habilitar la ejecución de código con Gemini 3 Flash ofrece un aumento de calidad de entre un 5 y un 10 % en la mayoría de los puntos de referencia de visión, lo que supone una ganancia significativa para las cargas de trabajo de visión de producción.
¿Qué hace la visión agente?
Agentic Vision es una nueva capacidad integrada en Gemini 3 Flash que combina el razonamiento visual con la ejecución de código Python. En lugar de tratar la visión como un paso fijo de integración, el modelo puede:
Formule un plan sobre cómo inspeccionar una imagen. Ejecute Python que manipula o analiza esa imagen. Vuelva a examinar la imagen transformada antes de responder.
El comportamiento central es tratar la comprensión de imágenes como una investigación activa en lugar de una instantánea congelada. Este diseño es importante para tareas que requieren una lectura precisa de texto pequeño, tablas densas o diagramas de ingeniería complejos.
El ciclo de pensar, actuar y observar
Agentic Vision introduce un ciclo estructurado de pensar, actuar y observar en las tareas de comprensión de imágenes.
Piense: Gemini 3 Flash analiza la consulta del usuario y la imagen inicial. Luego formula un plan de varios pasos. Por ejemplo, puede decidir ampliar varias regiones, analizar una tabla y luego calcular una estadística. Actuar: el modelo genera y ejecuta código Python para manipular o analizar imágenes. Los ejemplos oficiales incluyen: Recortar y hacer zoom. Rotar o anotar imágenes. Cálculos en ejecución. Contando cuadros delimitadores u otros elementos detectados. Observe: Las imágenes transformadas se agregan a la ventana contextual del modelo. Luego, el modelo inspecciona estos nuevos datos con un contexto visual más detallado y finalmente produce una respuesta a la consulta original del usuario.
En realidad, esto significa que el modelo no se limita a su primera vista de una imagen. Puede refinar iterativamente su evidencia utilizando computación externa y luego razonar sobre el contexto actualizado.
Ampliar e inspeccionar planos de alta resolución
Un caso de uso clave es el zoom automático en entradas de alta resolución. Gemini 3 Flash está entrenado para hacer zoom implícitamente cuando detecta detalles finos que son importantes para la tarea.
El equipo de Google destaca PlanCheckSolver.com, una plataforma de validación de planos de construcción impulsada por IA:
PlanCheckSolver permite la ejecución de código con Gemini 3 Flash. El modelo genera código Python para recortar y analizar parches de grandes planos arquitectónicos, como bordes de tejados o secciones de edificios. Estos parches recortados se tratan como imágenes nuevas y se vuelven a agregar a la ventana contextual. Basándose en estos parches, el modelo comprueba el cumplimiento de códigos de construcción complejos. PlanCheckSolver informa una mejora de precisión del 5% después de habilitar la ejecución de código.
Este flujo de trabajo es directamente relevante para los equipos de ingeniería que trabajan con exportaciones CAD, diseños estructurales o dibujos regulatorios que no se pueden reducir de forma segura sin perder detalles.
Anotación de imágenes como bloc de notas visual
Agentic Vision también expone una capacidad de anotación donde Gemini 3 Flash puede tratar una imagen como un bloc de notas visual.
En el ejemplo de la aplicación Gemini:
El usuario le pide al modelo que cuente los dígitos de una mano. Para reducir los errores de conteo, el modelo ejecuta Python que: Agrega cuadros delimitadores sobre cada dedo detectado. Dibuja etiquetas numéricas encima de cada dígito. La imagen anotada se retroalimenta a la ventana contextual. El recuento final se deriva de esta anotación alineada con píxeles.
Matemáticas visuales y trazado con código determinista
Los modelos de lenguaje grandes con frecuencia alucinan cuando realizan aritmética visual de varios pasos o leen tablas densas a partir de capturas de pantalla. Agentic Vision aborda esto descargando la computación a un entorno determinista de Python.
La demostración de Google en Google AI Studio muestra el siguiente flujo de trabajo:
Gemini 3 Flash analiza una tabla de alta densidad a partir de una imagen. Identifica los valores numéricos sin procesar necesarios para el análisis. Escribe código Python que: Normaliza los valores SOTA anteriores a 1.0. Utiliza Matplotlib para generar un gráfico de barras de rendimiento relativo. El gráfico generado y los valores normalizados se devuelven como parte del contexto y la respuesta final se basa en estos resultados calculados.
Para los equipos de ciencia de datos, esto crea una separación clara:
El modelo maneja la percepción y la planificación. Python maneja cálculos numéricos y trazados.
¿Cómo pueden los desarrolladores utilizar Agentic Vision hoy en día?
Agentic Vision ya está disponible con Gemini 3 Flash a través de múltiples superficies de Google:
API Gemini en Google AI Studio: los desarrolladores pueden probar la aplicación de demostración o utilizar AI Studio Playground. En Playground, Agentic Vision se habilita activando ‘Ejecución de código’ en la sección Herramientas. Vertex AI: la misma capacidad está disponible a través de la API de Gemini en Vertex AI, con la configuración manejada a través de la configuración habitual del modelo y las herramientas. Aplicación Gemini: Agentic Vision está comenzando a implementarse en la aplicación Gemini. Los usuarios pueden acceder a él eligiendo “Pensamiento” en el menú desplegable del modelo.
Conclusiones clave
Agentic Vision convierte a Gemini 3 Flash en un agente de visión activo: la comprensión de la imagen ya no es un solo paso hacia adelante. El modelo puede planificar, llamar a herramientas de Python en imágenes y luego volver a inspeccionar las imágenes transformadas antes de responder. El bucle Pensar, actuar, observar es el patrón de ejecución principal: Gemini 3 Flash planifica un análisis visual de varios pasos, ejecuta Python para recortar, anotar o calcular imágenes y luego observa el nuevo contexto visual adjunto a su ventana de contexto. La ejecución de código produce una ganancia de entre un 5% y un 10% en los puntos de referencia de visión: habilitar la ejecución de código Python con Agentic Vision proporciona un aumento de calidad reportado entre un 5% y un 10% en la mayoría de los puntos de referencia de visión, y PlanCheckSolver.com observa una mejora de precisión de aproximadamente un 5% en la validación del plan de construcción. Python determinista se utiliza para matemáticas visuales, tablas y trazados: el modelo analiza tablas de imágenes, extrae valores numéricos y luego usa Python y Matplotlib para normalizar métricas y generar gráficos, lo que reduce las alucinaciones en análisis y aritmética visual de varios pasos.
Consulte los detalles técnicos y la demostración. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.