El primer modelo de Gemma se lanzó a principios del año pasado y desde entonces ha crecido hasta convertirse en un Gemmaverse próspero con más de 160 millones de descargas colectivas. Este ecosistema incluye nuestra familia de más de una docena de modelos especializados para todo, desde protección hasta aplicaciones médicas y, lo más inspirador, las innumerables innovaciones de la comunidad. Desde innovadores como Roboflow que crean visión por computadora empresarial hasta el Instituto de Ciencias de Tokio que crea variantes japonesas de Gemma de alta capacidad, su trabajo nos ha mostrado el camino a seguir.
Aprovechando este increíble impulso, nos complace anunciar el lanzamiento completo de Gemma 3n. Si bien la vista previa del mes pasado ofreció un vistazo, hoy se desbloquea todo el poder de esta arquitectura móvil. Gemma 3n está diseñado para la comunidad de desarrolladores que ayudó a dar forma a Gemma. Es compatible con sus herramientas favoritas, incluidas Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX y muchas otras, lo que le permite ajustar e implementar sus aplicaciones específicas en el dispositivo con facilidad. Esta publicación es una inmersión profunda para desarrolladores: exploraremos algunas de las innovaciones detrás de Gemma 3n, compartiremos nuevos resultados de referencia y le mostraremos cómo comenzar a construir hoy.
¿Qué hay de nuevo en Gemma 3n?
Gemma 3n representa un avance importante para la IA en el dispositivo, ya que brinda poderosas capacidades multimodales a los dispositivos de borde con un rendimiento que antes solo se veía en los modelos fronterizos basados en la nube del año pasado.
Lograr este salto en el rendimiento del dispositivo requirió repensar el modelo desde cero. La base es la exclusiva arquitectura móvil de Gemma 3n, y todo comienza con MatFormer.
MatFormer: un modelo, muchos tamaños
En el núcleo de Gemma 3n se encuentra la arquitectura MatFormer (🪆Matryoshka Transformer), un novedoso transformador anidado construido para inferencia elástica. Piense en ello como en las muñecas Matryoshka: un modelo más grande contiene versiones más pequeñas y completamente funcionales de sí mismo. Este enfoque amplía el concepto de aprendizaje de representación de Matryoshka desde solo incorporaciones a todos los componentes del transformador.
Durante el entrenamiento de MatFormer del modelo de parámetros efectivos 4B (E4B), se optimiza simultáneamente un submodelo de parámetros efectivos 2B (E2B), como se muestra en la figura anterior. Esto proporciona a los desarrolladores dos potentes capacidades y casos de uso actuales:
1: Modelos preextraídos: puede descargar y utilizar directamente el modelo E4B principal para obtener las capacidades más altas o el submodelo E2B independiente que ya hemos extraído para usted, ofreciendo una inferencia hasta 2 veces más rápida.
2: Tamaños personalizados con Mix-n-Match: para un control más granular adaptado a restricciones de hardware específicas, puede crear un espectro de modelos de tamaños personalizados entre E2B y E4B utilizando un método que llamamos Mix-n-Match. Esta técnica le permite dividir con precisión los parámetros del modelo E4B, principalmente ajustando la dimensión oculta de la red de avance por capa (de 8192 a 16384) y omitiendo selectivamente algunas capas. Estamos lanzando MatFormer Lab, una herramienta que muestra cómo recuperar estos modelos óptimos, que se identificaron evaluando varias configuraciones en puntos de referencia como MMLU.
Puntuaciones MMLU para los puntos de control Gemma 3n previamente entrenados en diferentes tamaños de modelo (usando Mix-n-Match)
De cara al futuro, la arquitectura MatFormer también allana el camino para la ejecución elástica. Si bien no forma parte de las implementaciones lanzadas hoy, esta capacidad permite que un único modelo E4B implementado cambie dinámicamente entre rutas de inferencia E4B y E2B sobre la marcha, lo que permite la optimización en tiempo real del rendimiento y el uso de la memoria en función de la tarea actual y la carga del dispositivo.
Incrustaciones por capa (PLE): desbloquear una mayor eficiencia de la memoria
Los modelos Gemma 3n incorporan incrustaciones por capa (PLE). Esta innovación está diseñada para la implementación en el dispositivo, ya que mejora drásticamente la calidad del modelo sin aumentar la huella de memoria de alta velocidad requerida en el acelerador de su dispositivo (GPU/TPU).
Si bien los modelos Gemma 3n E2B y E4B tienen un recuento total de parámetros de 5B y 8B respectivamente, PLE permite que una porción significativa de estos parámetros (las incrustaciones asociadas con cada capa) se carguen y calculen de manera eficiente en la CPU. Esto significa que solo los pesos del transformador central (aproximadamente 2B para E2B y 4B para E4B) deben ubicarse en la memoria del acelerador (VRAM), que normalmente es más restringida.
Con las incrustaciones por capa, puede usar Gemma 3n E2B mientras solo tiene ~2B parámetros cargados en su acelerador.
Uso compartido de caché KV: procesamiento de contexto largo más rápido
El procesamiento de entradas largas, como las secuencias derivadas de transmisiones de audio y vídeo, es esencial para muchas aplicaciones multimodales avanzadas en el dispositivo. Gemma 3n presenta KV Cache Sharing, una función diseñada para acelerar significativamente el tiempo de obtención del primer token para aplicaciones de respuesta de streaming.
KV Cache Sharing optimiza la forma en que el modelo maneja la etapa de procesamiento de entrada inicial (a menudo llamada fase de “prellenado”). Las claves y valores de la capa intermedia de atención local y global se comparten directamente con todas las capas superiores, lo que ofrece una mejora notable del doble en el rendimiento de precarga en comparación con Gemma 3 4B. Esto significa que el modelo puede asimilar y comprender secuencias de indicaciones largas mucho más rápido que antes.
Comprensión de audio: introducción del habla al texto y la traducción
Gemma 3n utiliza un codificador de audio avanzado basado en el modelo universal de voz (USM). El codificador genera un token por cada 160 ms de audio (aproximadamente 6 tokens por segundo), que luego se integran como entrada al modelo de lenguaje, proporcionando una representación granular del contexto del sonido.
Esta capacidad de audio integrada desbloquea funciones clave para el desarrollo en el dispositivo, que incluyen:
Reconocimiento automático de voz (ASR): habilite la transcripción de voz a texto de alta calidad directamente en el dispositivo. Traducción automática de voz (AST): traduzca el idioma hablado a texto en otro idioma.
Hemos observado resultados AST particularmente sólidos para la traducción entre inglés y español, francés, italiano y portugués, lo que ofrece un gran potencial para los desarrolladores que apuntan a aplicaciones en estos idiomas. Para tareas como la traducción de voz, aprovechar las indicaciones de la cadena de pensamiento puede mejorar significativamente los resultados. He aquí un ejemplo:
usuario Transcribe el siguiente segmento de discurso en español y luego tradúcelo al inglés: modelo
Texto sin formato
En el momento del lanzamiento, se implementa el codificador Gemma 3n para procesar clips de audio de hasta 30 segundos. Sin embargo, esta no es una limitación fundamental. El codificador de audio subyacente es un codificador de transmisión, capaz de procesar audios arbitrariamente largos con entrenamiento de audio de formato largo adicional. Las implementaciones posteriores desbloquearán aplicaciones de transmisión prolongada y de baja latencia.
MobileNet-V5: nuevo codificador de visión de última generación
Además de sus capacidades de audio integradas, Gemma 3n presenta un nuevo codificador de visión altamente eficiente, MobileNet-V5-300M, que ofrece un rendimiento de última generación para tareas multimodales en dispositivos de vanguardia.
Diseñado para ofrecer flexibilidad y potencia en hardware limitado, MobileNet-V5 ofrece a los desarrolladores:
Múltiples resoluciones de entrada: admite de forma nativa resoluciones de 256×256, 512×512 y 768×768 píxeles, lo que le permite equilibrar el rendimiento y los detalles para sus aplicaciones específicas. Amplia comprensión visual: capacitado conjuntamente en extensos conjuntos de datos multimodales, destaca en una amplia gama de tareas de comprensión de imágenes y videos. Alto rendimiento: procesa hasta 60 fotogramas por segundo en un Google Pixel, lo que permite el análisis de video en tiempo real en el dispositivo y experiencias interactivas.
Este nivel de rendimiento se logra con múltiples innovaciones arquitectónicas, que incluyen:
Una base avanzada de bloques MobileNet-V4 (incluidos cuellos de botella invertidos universales y Mobile MQA). Una arquitectura significativamente ampliada, que presenta un modelo de pirámide profunda e híbrida que es 10 veces más grande que la variante más grande de MobileNet-V4. Un novedoso adaptador VLM Fusion multiescala que mejora la calidad de los tokens para una mayor precisión y eficiencia.
Beneficiándose de diseños arquitectónicos novedosos y técnicas de destilación avanzadas, MobileNet-V5-300M supera sustancialmente al SoViT básico en Gemma 3 (entrenado con SigLip, sin destilación). En un Google Pixel Edge TPU, ofrece una aceleración 13 veces mayor con cuantificación (6,5 veces sin ella), requiere un 46% menos de parámetros y ocupa una memoria 4 veces menor, al mismo tiempo que proporciona una precisión significativamente mayor en tareas de visión y lenguaje.
Estamos emocionados de compartir más sobre el trabajo detrás de este modelo. Esté atento a nuestro próximo informe técnico MobileNet-V5, que profundizará en la arquitectura del modelo, las estrategias de escalamiento de datos y las técnicas avanzadas de destilación.
Hacer accesible Gemma 3n desde el primer día ha sido una prioridad. Estamos orgullosos de asociarnos con muchos desarrolladores increíbles de código abierto para garantizar un amplio soporte en herramientas y plataformas populares, incluidas las contribuciones de los equipos detrás de AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth y vLLM.
Pero este ecosistema es sólo el comienzo. El verdadero poder de esta tecnología está en lo que construirás con ella. Por eso lanzamos el Gemma 3n Impact Challenge. Su misión: utilizar las capacidades multimodales, fuera de línea y en el dispositivo únicas de Gemma 3n para crear un producto para un mundo mejor. Con $150,000 en premios, buscamos una historia en video convincente y una demostración con factor “sorpresa” que muestre el impacto en el mundo real. Únase al desafío y ayude a construir un futuro mejor.
Comience hoy con Gemma 3n
¿Listo para explorar el potencial de Gemma 3n hoy? He aquí cómo:
Experimente directamente: utilice Google AI Studio para probar Gemma 3n con solo un par de clics. Los modelos de Gemma también se pueden implementar directamente en Cloud Run desde AI Studio. Aprenda e integre: sumérjase en nuestra documentación completa para integrar rápidamente Gemma en sus proyectos o comience con nuestras guías de inferencia y ajuste.