Google AI acaba de lanzar Nano-Banana 2: el nuevo modelo de IA que presenta consistencia avanzada de sujetos y rendimiento de síntesis de imágenes 4K en subsegundos

En la creciente “carrera de una IA “más pequeña, más rápida y más barata”, Google acaba de lanzar una carga útil de gran impacto. El gigante tecnológico presentó oficialmente Nano-Banana 2 (técnicamente designado como Gemini 3.1 Flash Image). Google está dando un giro definitivo hacia el borde: síntesis de imágenes de alta fidelidad en menos de un segundo que permanece completamente en su dispositivo.

El salto técnico: eficiencia sobre escala

La primera versión de Nano-Banana fue una prueba de concepto para el razonamiento móvil. La versión 2, sin embargo, se basa en una columna vertebral de 1.800 millones de parámetros que rivaliza con modelos 3 veces su tamaño en eficiencia.

El equipo de IA de Google logró esto a través de Dynamic Quantization-Aware Training (DQAT). En términos de ingeniería de software, la cuantificación generalmente implica reducir los pesos del modelo de FP32 (coma flotante de 32 bits) a INT8 o incluso INT4 para ahorrar memoria. Si bien esto generalmente degrada la calidad de salida, DQAT permite que Nano-Banana 2 mantenga una alta relación señal-ruido. ¿El resultado? Un modelo con una pequeña huella de memoria que no sacrifica la “textura” de la IA generativa de alta gama.

Rendimiento en tiempo real: el avance del LCD

TNano-Banana 2 registra latencias inferiores a 500 milisegundos en hardware móvil de gama media. En una demostración en vivo, el modelo generó aproximadamente 30 cuadros por segundo a 512 px, logrando efectivamente una síntesis en tiempo real.

Esto es posible gracias a la destilación de consistencia latente (LCD). Los modelos de difusión tradicionales son costosos desde el punto de vista computacional porque requieren de 20 a 50 pasos iterativos de “eliminación de ruido” para producir una imagen. La pantalla LCD permite que el modelo prediga la imagen final en tan solo 2 a 4 pasos. Al acortar el camino de inferencia, Google ha evitado la “fricción de latencia” que anteriormente hacía que la IA generativa en el dispositivo pareciera lenta.

Generación nativa 4K y coherencia entre sujetos

Más allá de la velocidad, el modelo introduce dos características que resuelven problemas de larga data para los desarrolladores:

Síntesis 4K nativa: a diferencia de sus predecesores, que tenían un límite de 1K o 2K, Nano-Banana 2 admite la generación y el escalado nativo de 4K. Esta es una gran victoria para los diseñadores de UI/UX móviles y los desarrolladores de juegos móviles. Consistencia del sujeto: el modelo puede rastrear y mantener hasta cinco personajes consistentes en diferentes escenas generadas. Para los ingenieros que crean aplicaciones de creación de contenido o narración de historias, esto resuelve los problemas de “parpadeo” y deriva de identidad que afectan a los canales de difusión estándar.

Arquitectura: Cool Running con GQA

Para los ingenieros de sistemas, la característica más impresionante es cómo Nano-Banana 2 gestiona las térmicas. Los dispositivos móviles a menudo reducen el rendimiento cuando las GPU/NPU se sobrecalientan. Google mitigó esto implementando Atención de consultas agrupadas (GQA).

En las arquitecturas Transformer estándar, el mecanismo de atención consume mucho ancho de banda de memoria. GQA optimiza esto al compartir claves y valores, lo que reduce significativamente el movimiento de datos requerido durante la inferencia. Esto garantiza que el modelo funcione “en frío”, evitando las caídas de rendimiento que suelen ocurrir durante tareas prolongadas con mucha IA.

El ecosistema de desarrolladores: Banana-SDK y ‘Peels’

Google está redoblando su apuesta por la filosofía ‘Local-First’ al integrar Nano-Banana 2 directamente en Android AICore. Para los desarrolladores de software, esto significa API estandarizadas para la ejecución en el dispositivo.

El lanzamiento también presentó Banana-SDK, que facilita el uso de ‘Banana-Peels’, la marca de Google para módulos especializados LoRA (adaptación de bajo rango). Esto permite a los desarrolladores ‘ajustar’ pesos específicos y ajustados para tareas específicas, como renderizado arquitectónico, imágenes médicas o arte de personajes estilizados, sin necesidad de volver a entrenar el modelo de parámetros base 1.8B.

Conclusiones clave

Subsegunda generación 4K: aprovechando la destilación de consistencia latente (LCD), el modelo logra una latencia inferior a 500 ms, lo que permite la síntesis de imágenes 4K en tiempo real y la ampliación directamente en hardware móvil. Arquitectura “local primero”: construido sobre una columna vertebral de 1.800 millones de parámetros, el modelo utiliza entrenamiento dinámico consciente de la cuantificación (DQAT) para mantener una salida de alta fidelidad con una huella de memoria mínima, eliminando la necesidad de una costosa inferencia en la nube. Eficiencia térmica a través de GQA: al implementar la atención de consultas agrupadas (GQA), el modelo reduce los requisitos de ancho de banda de memoria, lo que le permite ejecutarse continuamente en NPU móviles sin activar estrangulamiento térmico ni caídas de rendimiento. Consistencia avanzada del sujeto: un gran avance para las aplicaciones de narración de historias, el modelo puede mantener la identidad de hasta cinco personajes consistentes en múltiples escenas generadas, resolviendo el problema común de la “deriva de identidad” en los modelos de difusión. ‘Banana-Peels’ modulares (LoRA): a través del nuevo Banana-SDK, los desarrolladores pueden implementar módulos especializados de adaptación de bajo rango (LoRA) para personalizar el modelo para tareas específicas (como imágenes médicas o estilos artísticos específicos) sin volver a entrenar la arquitectura base.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.