Google AI se lanza a Gemma 3n: un modelo multimodal compacto creado para la implementación de bordes

Google ha introducido Gemma 3n, una nueva adición a su familia de modelos abiertos, diseñada para llevar grandes capacidades de IA multimodales a los dispositivos de borde. Construido desde cero con una filosofía de diseño móvil primero, Gemma 3n puede procesar y comprender el texto, las imágenes, el audio y el video en el dispositivo, sin depender del cómputo en la nube. Esta arquitectura representa un salto significativo en la dirección de las experiencias de IA en tiempo real de preservación de la privacidad en dispositivos como teléfonos inteligentes, wearables y cámaras inteligentes.

Variantes de modelo y rendimiento

Gemma 3n E2B: Diseñado para alta eficiencia en dispositivos con recursos limitados. Funciona como un modelo 5B mientras consume menos energía.
Gemma 3n E4B: Una variante de alto rendimiento que coincide o excede los modelos de clase 8B en puntos de referencia. Es el primer modelo bajo 10B en superar una puntuación de 1300 en MMLU.

Ambos modelos están ajustados para:

Complejo matemáticas, codificacióny razonamiento lógico tareas
Avanzado idioma de visión interacciones (subtitulación de imágenes, preguntas y respuestas visuales)
En tiempo real discurso y video comprensión

Diseño centrado en el desarrollador y acceso abierto

Google ha puesto a disposición Gemma 3n a través de plataformas como Cara abrazada con puntos de control de entrenamiento preconfigurados y API. Los desarrolladores pueden ajustar o implementar fácilmente los modelos en el hardware, gracias a la compatibilidad con TensorFlow Lite, ONNX y Nvidia Tensorrt.

El Guía oficial de desarrolladores Proporciona soporte para implementar Gemma 3n en aplicaciones diversas, que incluyen:

Herramientas de accesibilidad conscientes del medio ambiente
Asistentes personales inteligentes
Intérpretes en tiempo real AR/VR

Aplicaciones en el borde

Gemma 3n abre nuevas posibilidades para aplicaciones inteligentes nativas de borde:

Accesibilidad en el dispositivo: Subtítulos en tiempo real y narración consciente del medio ambiente para usuarios con discapacidad auditiva o visión
Educación interactiva: Aplicaciones que combinan texto, imágenes y audio para permitir experiencias de aprendizaje ricas e inmersivas
Sistemas de visión autónoma: Cámaras inteligentes que interpretan el movimiento, la presencia de objetos y el contexto de voz sin enviar datos a la nube

Estas características hacen de Gemma 3n un candidato fuerte para las implementaciones de IA de privacidad, donde los datos del usuario confidenciales nunca abandonan el dispositivo local.

Insights de entrenamiento y optimización

Gemma 3n fue entrenado utilizando un conjunto de datos multimodal robusto y curado que combina texto, imágenes, audio y secuencias de video. Aprovechando las estrategias de ajuste fino eficientes en datos, Google aseguró que el modelo mantuvo una alta generalización incluso con un recuento de parámetros relativamente más pequeño. Las innovaciones en el diseño del bloque de transformadores, la escasez de atención y el enrutamiento de tokens mejoraron aún más la eficiencia del tiempo de ejecución.

Por qué es importante Gemma 3n

Gemma 3N señala un cambio en cómo se construyen y implementan los modelos fundamentales. En lugar de empujar hacia los tamaños de modelos cada vez mayores, se centra en:

Eficiencia basada en arquitectura
Comprensión multimodal
Portabilidad de implementación

Se alinea con la visión más amplia de Google para la IA en el dispositivo: más inteligente, más rápida, más privada y universalmente accesible. Para los desarrolladores y las empresas, esto significa IA que se ejecuta en hardware de productos básicos al tiempo que ofrece la sofisticación de los modelos a escala de la nube.

Conclusión

Con el lanzamiento de Gemma 3n, Google no solo lanzará otro modelo de base; Está redefiniendo la infraestructura de la computación inteligente en el borde. La disponibilidad de variantes E2B y E4B proporciona flexibilidad tanto para las aplicaciones móviles livianas como para las tareas de IA de borde de alto rendimiento. A medida que las interfaces multimodales se convierten en la norma, Gemma 3N se destaca como un modelo de base práctico y potente optimizado para el uso del mundo real.

Mira el Detalle técnico, Modelos en la cara abrazada y Pruébelo en Google Studio. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Google AI se lanza a Gemma 3n: un modelo multimodal compacto creado para la implementación de bordes

ByEquipo de 7 minutos

Lo más destacado técnico de Gemma 3n

Variantes de modelo y rendimiento

Diseño centrado en el desarrollador y acceso abierto

Aplicaciones en el borde

Insights de entrenamiento y optimización

Por qué es importante Gemma 3n

Conclusión

By Equipo de 7 minutos

Related Post

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

La nueva CLI Colab de Google permite a los desarrolladores y agentes de IA ejecutar Python en GPU y TPU Colab remotas desde la terminal

You missed

¿Podrían las tormentas de meteoritos perjudicar las futuras misiones lunares de la NASA?

El sur de España se prepara para un cálido comienzo de semana « Euro Weekly News

Rashmika Mandanna y Vijay Deverakonda concluyen el calendario de Gandikota de Ranabaali

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026