Google ha introducido Gemma 3n, una nueva adición a su familia de modelos abiertos, diseñada para llevar grandes capacidades de IA multimodales a los dispositivos de borde. Construido desde cero con una filosofía de diseño móvil primero, Gemma 3n puede procesar y comprender el texto, las imágenes, el audio y el video en el dispositivo, sin depender del cómputo en la nube. Esta arquitectura representa un salto significativo en la dirección de las experiencias de IA en tiempo real de preservación de la privacidad en dispositivos como teléfonos inteligentes, wearables y cámaras inteligentes.
Lo más destacado técnico de Gemma 3n
La serie Gemma 3N incluye dos versiones: Gemma 3n E2B y Gemma 3n E4Boptimizado para ofrecer rendimiento a la par con los modelos tradicionales de parámetros 5B y 8B respectivamente, al tiempo que utiliza menos recursos. Estos modelos integran innovaciones arquitectónicas que reducen drásticamente los requisitos de memoria y potencia, lo que permite la inferencia de alta calidad localmente en el hardware del borde.
- Capacidades multimodales: Gemma 3N admite la comprensión multimodal en 35 idiomas y tareas solo de texto en más de 140 idiomas.
- Competencia de razonamiento: La variante E4B rompe una barrera de puntaje de 1300 en puntos de referencia académicos como MMLU, el primero para los modelos de parámetros Sub-10B.
- Alta eficiencia: La arquitectura compacta del modelo le permite funcionar con menos de la mitad de la huella de memoria de modelos comparables, al tiempo que conserva la alta calidad en los casos de uso.
Variantes de modelo y rendimiento
- Gemma 3n E2B: Diseñado para alta eficiencia en dispositivos con recursos limitados. Funciona como un modelo 5B mientras consume menos energía.
- Gemma 3n E4B: Una variante de alto rendimiento que coincide o excede los modelos de clase 8B en puntos de referencia. Es el primer modelo bajo 10B en superar una puntuación de 1300 en MMLU.
Ambos modelos están ajustados para:
- Complejo matemáticas, codificacióny razonamiento lógico tareas
- Avanzado idioma de visión interacciones (subtitulación de imágenes, preguntas y respuestas visuales)
- En tiempo real discurso y video comprensión
Diseño centrado en el desarrollador y acceso abierto
Google ha puesto a disposición Gemma 3n a través de plataformas como Cara abrazada con puntos de control de entrenamiento preconfigurados y API. Los desarrolladores pueden ajustar o implementar fácilmente los modelos en el hardware, gracias a la compatibilidad con TensorFlow Lite, ONNX y Nvidia Tensorrt.
El Guía oficial de desarrolladores Proporciona soporte para implementar Gemma 3n en aplicaciones diversas, que incluyen:
- Herramientas de accesibilidad conscientes del medio ambiente
- Asistentes personales inteligentes
- Intérpretes en tiempo real AR/VR
Aplicaciones en el borde
Gemma 3n abre nuevas posibilidades para aplicaciones inteligentes nativas de borde:
- Accesibilidad en el dispositivo: Subtítulos en tiempo real y narración consciente del medio ambiente para usuarios con discapacidad auditiva o visión
- Educación interactiva: Aplicaciones que combinan texto, imágenes y audio para permitir experiencias de aprendizaje ricas e inmersivas
- Sistemas de visión autónoma: Cámaras inteligentes que interpretan el movimiento, la presencia de objetos y el contexto de voz sin enviar datos a la nube
Estas características hacen de Gemma 3n un candidato fuerte para las implementaciones de IA de privacidad, donde los datos del usuario confidenciales nunca abandonan el dispositivo local.
Insights de entrenamiento y optimización
Gemma 3n fue entrenado utilizando un conjunto de datos multimodal robusto y curado que combina texto, imágenes, audio y secuencias de video. Aprovechando las estrategias de ajuste fino eficientes en datos, Google aseguró que el modelo mantuvo una alta generalización incluso con un recuento de parámetros relativamente más pequeño. Las innovaciones en el diseño del bloque de transformadores, la escasez de atención y el enrutamiento de tokens mejoraron aún más la eficiencia del tiempo de ejecución.
Por qué es importante Gemma 3n
Gemma 3N señala un cambio en cómo se construyen y implementan los modelos fundamentales. En lugar de empujar hacia los tamaños de modelos cada vez mayores, se centra en:
- Eficiencia basada en arquitectura
- Comprensión multimodal
- Portabilidad de implementación
Se alinea con la visión más amplia de Google para la IA en el dispositivo: más inteligente, más rápida, más privada y universalmente accesible. Para los desarrolladores y las empresas, esto significa IA que se ejecuta en hardware de productos básicos al tiempo que ofrece la sofisticación de los modelos a escala de la nube.
Conclusión
Con el lanzamiento de Gemma 3n, Google no solo lanzará otro modelo de base; Está redefiniendo la infraestructura de la computación inteligente en el borde. La disponibilidad de variantes E2B y E4B proporciona flexibilidad tanto para las aplicaciones móviles livianas como para las tareas de IA de borde de alto rendimiento. A medida que las interfaces multimodales se convierten en la norma, Gemma 3N se destaca como un modelo de base práctico y potente optimizado para el uso del mundo real.
Mira el Detalle técnico, Modelos en la cara abrazada y Pruébelo en Google Studio. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.