Anunciando la vista previa de Gemma 3n: IA potente, eficiente, móvil primero

Después de los emocionantes lanzamientos de Gemma 3 y Gemma 3 Qatnuestra familia de modelos abiertos de vanguardia capaces de ejecutarse en una sola nube o acelerador de escritorio, estamos presionando nuestra visión para la IA accesible aún más. Gemma 3 ofreció capacidades poderosas para los desarrolladores, y ahora estamos extendiendo esa visión a una IA altamente capaz en tiempo real que opera directamente en los dispositivos que usa todos los días: sus teléfonos, tabletas y computadoras portátiles.

Para alimentar la próxima generación de IA en el dispositivo y apoyar una amplia gama de aplicaciones, incluido el avance de las capacidades de Gemini Nano, diseñamos una nueva arquitectura de vanguardia. Esta fundación de próxima generación se creó en estrecha colaboración con líderes de hardware móvil como Qualcomm Technologies, MediaTek y el negocio del sistema de Samsung, y está optimizado para una IA multimodal, que permite experiencias verdaderamente personales y privadas directamente en su dispositivo.

Gemma 3n es nuestro primer modelo abierto basado en esta arquitectura innovadora y compartida, lo que permite a los desarrolladores comenzar a experimentar con esta tecnología hoy en una vista previa temprana. La misma arquitectura avanzada también alimenta la próxima generación de Géminis nanoque lleva estas capacidades a una amplia gama de características en Google Apps y nuestro ecosistema en el dispositivo, y estará disponible a finales de este año. Gemma 3n le permite comenzar a construir sobre esta base que vendrá a plataformas principales como Android y Chrome.

Este gráfico clasifica a los modelos de IA de Chatbot Arena elo de los puntajes; Los puntajes más altos (números superiores) indican una mayor preferencia del usuario. Gemma 3n se ubica en gran medida entre los modelos populares de propiedad y abierto.

Gemma 3n aprovecha una innovación de Google DeepMind llamado Incremedios para la capa (PLE) que ofrece una reducción significativa en el uso de RAM. Si bien el recuento de parámetros RAW es 5B y 8B, esta innovación le permite ejecutar modelos más grandes en dispositivos móviles o transmisión en vivo desde la nube, con una sobrecarga de memoria comparable a un modelo 2B y 4B, lo que significa que los modelos pueden operar con una huella de memoria dinámica de solo 2GB y 3GB. Aprenda más en nuestro documentación.

Al explorar Gemma 3N, los desarrolladores pueden obtener una vista previa temprana de las capacidades centrales del modelo abierto y las innovaciones arquitectónicas móviles que estarán disponibles en Android y Chrome con Gemini Nano.

En esta publicación, exploraremos las nuevas capacidades de Gemma 3N, nuestro enfoque para el desarrollo responsable y cómo puede acceder a la vista previa hoy.


Capacidades clave de Gemma 3n

Diseñado para experiencias de IA rápidas y bajas en el pie que se ejecutan localmente, Gemma 3n ofrece:

  • Rendimiento y eficiencia optimizada en el dispositivo: Gemma 3N comienza a responder aproximadamente 1.5 veces más rápido en dispositivos móviles con una calidad significativamente mejor (en comparación con Gemma 3 4B) y una huella de memoria reducida alcanzada a través de innovaciones como embedidas por capa, intercambio de KVC y cuantificación de activación avanzada.
  • Many-in-1 Flexibilidad: Un modelo con una huella de memoria activa 4B que incluye de forma nativa un submodelo de huella de memoria activa 2B anidada (gracias a Mator capacitación). Esto proporciona flexibilidad para intercambiar dinámicamente el rendimiento y la calidad en la marcha sin alojar modelos separados. Además, introducimos la capacidad de mezcla en Gemma 3n para crear dinámicamente submodelos del modelo 4B que puede ajustar de manera óptima su caso de uso específico, y la compensación de calidad/latencia asociada. Estén atentos para obtener más información sobre esta investigación en nuestro próximo informe técnico.
  • Privacidad primero y fuera de línea listo: La ejecución local permite características que respetan la privacidad y la función del usuario de manera confiable, incluso sin conexión a Internet.
  • Comprensión multimodal ampliada con audio: Gemma 3n puede comprender y procesar audio, texto e imágenes, y ofrece una comprensión de video significativamente mejorada. Sus capacidades de audio permiten que el modelo realice un reconocimiento automático de voz automático de alta calidad (transcripción) y la traducción (discurso al texto traducido). Además, el modelo acepta entradas entrelazadas entre modalidades, lo que permite la comprensión de interacciones multimodales complejas. (Implementación pública próximamente)
  • Capacidades multilingües mejoradas: Rendimiento multilingüe mejorado, particularmente en japonés, alemán, coreano, español y francés. Un fuerte rendimiento reflejado en puntos de referencia multilingües como 50.1% en WMT24 ++ (CHRF).

Rendimiento de MMLU

El tamaño de rendimiento MMLU vs de este cuadro de este cuadro de la capacidad de mix-n-match de Gemma 3N (previamente).

Desbloquear nuevas experiencias sobre la marcha

Gemma 3n empoderará una nueva ola de aplicaciones inteligentes sobre la marcha al permitir que los desarrolladores:

  1. Construir experiencias interactivas en vivo que comprenden y responden a las señales visuales y auditivas en tiempo real del entorno del usuario.


2. Poder de comprensión más profunda y generación de texto contextual utilizando entradas combinadas de audio, imagen, video y texto, todo procesado en el dispositivo privado.


3. Desarrollar aplicaciones avanzadas centradas en audioincluida la transcripción del habla en tiempo real, la traducción y las ricas interacciones impulsadas por la voz.

Aquí hay una descripción general y los tipos de experiencias que puede construir:

Construyendo responsablemente, juntos

Nuestro compromiso con el desarrollo responsable de la IA es primordial. Gemma 3n, como todos los modelos de Gemma, se sometió a rigurosas evaluaciones de seguridad, gobernanza de datos y alineación de ajuste fino con nuestras políticas de seguridad. Nos acercamos a los modelos abiertos con una evaluación de riesgos cuidadosa, refinando continuamente nuestras prácticas a medida que evoluciona el paisaje de IA.


Comience: Vista previa Gemma 3n Today

Estamos emocionados de poner a Gemma 3n en sus manos a través de una vista previa a partir de hoy:


Acceso inicial (disponible ahora):

  • Exploración basada en la nube con Google AI Studio: Prueba Gemma 3n directamente en tu navegador en Google AI Studio – No se necesita configuración. Explore sus capacidades de entrada de texto al instante.
  • Desarrollo en el dispositivo con Google AI Edge: Para los desarrolladores que buscan integrar a Gemma 3n localmente, Google AI Edge proporciona herramientas y bibliotecas. Puede comenzar con las capacidades de comprensión/generación de texto y texto hoy.

Gemma 3n marca el siguiente paso para democratizar el acceso a la IA eficiente y de vanguardia. Estamos increíblemente emocionados de ver lo que construirá a medida que hacemos esta tecnología progresivamente disponible, comenzando con la vista previa de hoy.

Explore este anuncio y todas las actualizaciones de Google I/O 2025 en io.google A partir del 22 de mayo.