En el borde, nuestros modelos E2B y E4B redefinen la utilidad en el dispositivo, priorizando las capacidades multimodales, el procesamiento de baja latencia y la perfecta integración del ecosistema sobre el recuento de parámetros sin procesar.
Potente, accesible, abierto
Para impulsar la próxima generación de investigaciones y productos pioneros, hemos dimensionado los modelos Gemma 4 específicamente para ejecutarlos y ajustarlos de manera eficiente en el hardware, desde miles de millones de dispositivos Android en todo el mundo hasta GPU de portátiles, hasta estaciones de trabajo y aceleradores para desarrolladores.
Al utilizar estos modelos altamente optimizados, puede ajustar Gemma 4 para lograr un rendimiento de última generación en sus tareas específicas. Ya hemos visto un éxito increíble con este enfoque; por ejemplo, INSAIT creó un modelo pionero de lengua búlgara (BgGPT) y trabajamos con la Universidad de Yale en Cell2Sentence-Scale para descubrir nuevas vías para la terapia del cáncer, entre muchas otras.
Esto es lo que hace que Gemma 4 sea nuestra familia de modelos abiertos más capaz hasta el momento:
Razonamiento avanzado: Capaz de planificación de varios pasos y lógica profunda, Gemma 4 demuestra mejoras significativas en matemáticas y en los puntos de referencia de seguimiento de instrucciones que lo requieren. Flujos de trabajo agentes: el soporte nativo para llamadas de funciones, salida JSON estructurada e instrucciones nativas del sistema le permite crear agentes autónomos que pueden interactuar con diferentes herramientas y API y ejecutar flujos de trabajo de manera confiable. Generación de código: Gemma 4 admite código fuera de línea de alta calidad, lo que convierte su estación de trabajo en un asistente de código de IA local. Visión y audio: Todos los modelos procesan videos e imágenes de forma nativa, admiten resoluciones variables y destacan en tareas visuales como OCR y comprensión de gráficos. Además, los modelos E2B y E4B cuentan con entrada de audio nativa para reconocimiento y comprensión de voz. Contexto más largo: procese contenido de formato largo sin problemas. Los modelos de borde cuentan con una ventana de contexto de 128 KB, mientras que los modelos más grandes ofrecen hasta 256 KB, lo que le permite pasar repositorios o documentos largos en un solo mensaje. Más de 140 idiomas: Gemma 4, entrenado de forma nativa en más de 140 idiomas, ayuda a los desarrolladores a crear aplicaciones inclusivas y de alto rendimiento para una audiencia global.
Modelos versátiles para hardware diverso
Estamos lanzando los pesos del modelo Gemma 4 en tamaños diseñados para hardware y casos de uso específicos, lo que garantiza que obtenga un razonamiento de vanguardia dondequiera que lo necesite:
Modelos 26B y 31B: Inteligencia de frontera, fuera de línea en sus computadoras personales
Optimizados para proporcionar a investigadores y desarrolladores razonamiento de última generación en hardware accesible, nuestros pesos bfloat16 no cuantificados se adaptan de manera eficiente a una única GPU NVIDIA H100 de 80 GB. Para configuraciones locales, las versiones cuantificadas se ejecutan de forma nativa en GPU de consumo para potenciar sus IDE, asistentes de codificación y flujos de trabajo agentes. Nuestra Mezcla de Expertos (MoE) 26B se centra en la latencia, activando solo 3.8 mil millones de sus parámetros totales durante la inferencia para entregar tokens por segundo excepcionalmente rápidos, mientras que nuestro 31B Dense maximiza la calidad bruta y proporciona una base poderosa para el ajuste.