Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

Durante años, la comunidad de visión por computadora ha operado en dos vías separadas: modelos generativos (que producen imágenes) y modelos discriminativos (que las comprenden). La suposición era sencilla: los modelos buenos para hacer imágenes no son necesariamente buenos para leerlas. Un nuevo artículo de Google, titulado “Los generadores de imágenes son aprendices de visión generalista” (arXiv:2604.20329), publicado el 22 de abril de 2026, echa por tierra esa suposición.

Un equipo de investigadores de Google DeepMind presentó Vision Banana, un modelo unificado único que supera o iguala a los sistemas especializados de última generación en una amplia gama de tareas de comprensión visual, incluida la segmentación semántica, la segmentación de instancias, la estimación de profundidad métrica monocular y la estimación de normal de superficie, al mismo tiempo que conserva las capacidades de generación de imágenes originales de su modelo base.

https://arxiv.org/pdf/2604.20329

La analogía del LLM que lo cambia todo

Si ha trabajado con modelos de lenguaje grandes, ya comprende el manual de dos fases: primero, entrene previamente un modelo base con datos de texto masivos utilizando un objetivo generativo, luego aplique el ajuste de instrucciones para alinearlo para las tareas posteriores. La fase de preentrenamiento es donde el modelo desarrolla una rica representación interna del lenguaje que puede reutilizarse para casi cualquier cosa.

La afirmación principal del equipo de Google es que la capacitación en generación de imágenes desempeña exactamente el mismo papel fundamental para la visión. Su modelo base, Nano Banana Pro (NBP), es el generador de imágenes de última generación de Google. Al realizar un paso liviano de ajuste de instrucciones (mezclando una pequeña proporción de datos de tareas de visión por computadora en una proporción muy baja con la mezcla de entrenamiento original de NBP), crearon Vision Banana. La idea clave: generar imágenes fotorrealistas requiere implícitamente un modelo para comprender la geometría, la semántica, la profundidad y las relaciones entre objetos. Vision Banana aprende a expresar ese conocimiento latente en formatos mensurables y decodificables.

Fundamentalmente, no se incluyen datos de entrenamiento de ninguno de los puntos de referencia de evaluación en la combinación de ajuste de instrucción, lo que garantiza que todos los resultados reflejen una verdadera capacidad generalista en lugar de una memorización en el dominio.

Cómo funciona: la percepción como generación de imágenes

En lugar de agregar cabezales decodificadores especializados o módulos de regresión para cada tarea, todas las salidas de las tareas de visión están parametrizadas como imágenes RGB. El modelo está ajustado a las instrucciones para producir visualizaciones que siguen esquemas de color precisos e invertibles, lo que significa que las imágenes generadas se pueden decodificar nuevamente en resultados cuantitativos para una evaluación comparativa.

El equipo de investigación identificó tres ventajas clave de esta estrategia. En primer lugar, admite una amplia variedad de tareas con un único modelo unificado: después del ajuste de las instrucciones, solo cambian las indicaciones, no los pesos. En segundo lugar, requiere relativamente pocos datos de entrenamiento nuevos, ya que el ajuste de instrucciones consiste únicamente en enseñar al modelo cómo formatear las salidas de visión por computadora como RGB. En tercer lugar, ayuda al modelo a conservar sus capacidades de generación de imágenes originales, ya que las salidas son simplemente nuevas imágenes RGB.

Para la segmentación semántica, el modelo recibe instrucciones como: “Genere una visualización de segmentación de esta imagen, utilizando la asignación de color: {‘cat’: ‘rojo’, ‘fondo’: ‘amarillo’}.” Cada píxel está coloreado según su clase predicha y, como las asignaciones de color se especifican en el mensaje, no se necesita un vocabulario de etiquetas fijo.

Por ejemplo, la segmentación, dado que el número de instancias se desconoce de antemano, Vision Banana utiliza una estrategia de inferencia por clase: ejecuta un pase separado por clase y asigna dinámicamente colores únicos a cada instancia. Las máscaras se recuperan agrupando píxeles con colores similares utilizando un umbral.

La estimación de profundidad métrica utiliza un mapeo biyectivo entre valores de profundidad métrica ilimitados en [0, ∞) and bounded RGB values in [0, 1]³. Una transformación de potencia (parámetro de forma λ = −3, parámetro de escala c = 10/3) primero “curva” los valores de profundidad métrica, que luego se codifican como una visualización de color falso que atraviesa los bordes del cubo RGB, siguiendo la estructura de una curva de Hilbert 3D. Esta transformación es estrictamente invertible, por lo que la imagen de profundidad generada se decodifica limpiamente a distancias métricas físicas. Fundamentalmente, no se requieren parámetros de la cámara (ni intrínsecos ni extrínsecos) en el momento del entrenamiento o la inferencia. El modelo infiere la escala absoluta únicamente a partir de señales visuales y conocimientos del mundo incorporados durante el entrenamiento previo. Los datos de entrenamiento de profundidad también son completamente sintéticos, generados a partir de motores de renderizado de simulación, sin utilizar datos de profundidad del mundo real.

Para la estimación de normales de superficie, el mapeo es más directo: las normales de superficie son vectores unitarios (x, y, z) que varían de −1,0 a 1,0, que se asignan naturalmente a canales RGB. Las normales orientadas a la izquierda se codifican como rojo rosado; las normales boca arriba se codifican en verde claro; las normales que apuntan hacia la cámara se codifican como azul claro/púrpura.

Los números: vencer a los especialistas en su propio juego

Los resultados de Vision Banana en todos los puntos de referencia (todos en configuraciones de transferencia de disparo cero, donde el modelo nunca ha visto datos de entrenamiento de los conjuntos de datos evaluados) son significativos:

Segmentación semántica en Cityscapes val: mIoU de 0,699, en comparación con 0,652 de SAM 3, una ganancia de 4,7 puntos. Segmentación de expresión de referencia en RefCOCOg UMD val: cIoU de 0,738, superando a SAM 3 Agent’s 0,734. Segmentación de razonamiento en ReasonSeg val: gIoU de 0,793, superando el 0,770 de SAM 3 Agent y superando notablemente incluso los métodos distintos de cero entrenados con datos en el dominio, incluido X-SAM. Segmentación de instancias en SA-Co/Gold: pmF1 de 0,540, a la par con DINO-X (0,552) y por delante de Gemini 2.5 (0,461), APE-D (0,369) y OWLv2 (0,420) bajo transferencia de disparo cero. Estimación de la profundidad de la métrica: promedio δ1 de 0,882 en seis puntos de referencia principales; en los cuatro conjuntos de datos donde se evaluó Depth Anything V3 (NYU, ETH3D, DIODE-Indoor, KITTI), Vision Banana obtiene una puntuación de 0,929 frente a 0,918 de Depth Anything V3, sin utilizar datos de entrenamiento del mundo real ni parámetros de cámara. Estimación de la normalidad de la superficie: error de ángulo medio promedio de 18,928° en cuatro conjuntos de datos, en comparación con los 19,642° de Lotus-2. Específicamente en conjuntos de datos de interiores, Vision Banana logra el error de ángulo medio más bajo (15,549°) y el error de ángulo medio más bajo (9,300°) entre todos los métodos comparados.

En los puntos de referencia generativos, Vision Banana se mantiene firme frente a su modelo base: logra una tasa de ganancia del 53,5 % contra Nano Banana Pro en GenAI-Bench (texto a imagen) y una tasa de ganancia del 47,8 % en ImgEdit (edición de imágenes), donde Nano Banana Pro obtiene una puntuación del 52,2 %. En general, los resultados confirman que el ajuste ligero de instrucciones no degrada las capacidades generativas del modelo.

Conclusiones clave

El entrenamiento previo en generación de imágenes es un alumno de visión generalista: así como el entrenamiento previo de LLM desbloquea la comprensión emergente del lenguaje, la investigación de Google muestra que el entrenamiento en generación de imágenes desarrolla naturalmente poderosas representaciones visuales internas que se transfieren a tareas de percepción como segmentación, estimación de profundidad y estimación de superficie normal. Vision Banana supera a los modelos especializados sin arquitectura especializada: construido mediante un ajuste de instrucciones liviano de Nano Banana Pro, Vision Banana supera a SAM 3 en tres puntos de referencia de segmentación, Depth Anything V3 en estimación de profundidad métrica (δ1: 0,929 frente a 0,918) y Lotus-2 en estimación normal de superficie (error de ángulo medio: 18,928° frente a 19,642°), todo en configuraciones de transferencia de disparo cero. Todas las tareas de visión se replantean como generación de imágenes: al parametrizar las salidas de las tareas de visión como imágenes RGB con esquemas de color decodificables, Vision Banana utiliza un único conjunto de pesos y un cambio rápido entre segmentación semántica, segmentación de instancias, estimación de profundidad y estimación de normal de superficie, sin necesidad de módulos específicos de tareas. La estimación de profundidad métrica funciona sin parámetros de cámara ni datos del mundo real: utilizando una transformación de potencia biyectiva que asigna valores de profundidad al espacio de color RGB, Vision Banana infiere una escala métrica absoluta puramente a partir del contexto visual, sin requerir ni intrínsecos ni extrínsecos de la cámara, y está entrenado completamente con datos sintéticos de motores de simulación. La generación de imágenes puede servir como una interfaz universal para la visión: de manera análoga a cómo la generación de texto unifica las tareas del lenguaje, la generación de imágenes puede convertirse en la interfaz de salida universal para la visión por computadora, apuntando hacia un cambio de paradigma donde el entrenamiento previo de la visión generativa impulsa verdaderos modelos de visión fundamentales tanto para la generación como para la comprensión.

Consulte la página del artículo y del proyecto aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.