Google AI se lanza Gemma 3: Modelos abiertos multimodales livianos para IA eficiente y en consendencia

En el campo de la inteligencia artificial, quedan dos desafíos persistentes. Muchos modelos de lenguaje avanzados requieren recursos computacionales significativos, lo que limita su uso de organizaciones más pequeñas y desarrolladores individuales. Además, incluso cuando estos modelos están disponibles, su latencia y tamaño a menudo los hacen inadecuados para la implementación en dispositivos cotidianos como computadoras portátiles o teléfonos inteligentes. También existe una necesidad continua de garantizar que estos modelos funcionen de manera segura, con evaluaciones de riesgos adecuadas y salvaguardas incorporadas. Estos desafíos han motivado la búsqueda de modelos que sean eficientes y ampliamente accesibles sin comprometer el rendimiento o la seguridad.

Google AI se lanza a Gemma 3: una colección de modelos abiertos

Google Deepmind ha introducido Gemma 3, una familia de modelos abiertos diseñados para abordar estos desafíos. Desarrollado con tecnología similar a la utilizada para Gemini 2.0, Gemma 3 está destinada a funcionar de manera eficiente en una sola GPU o TPU. Los modelos están disponibles en varios tamaños (1B, 4B, 12B y 27B) con opciones para variantes pre -entrenadas y de instrucción. Esta gama permite a los usuarios seleccionar el modelo que mejor se ajuste a su hardware y necesidades específicas de aplicaciones, lo que facilita que una comunidad más amplia incorpore IA en sus proyectos.

Innovaciones técnicas y beneficios clave

Gemma 3 está construido para ofrecer ventajas prácticas en varias áreas clave:

  • Eficiencia y portabilidad: Los modelos están diseñados para operar rápidamente en hardware modesto. Por ejemplo, la versión 27B ha demostrado un rendimiento robusto en las evaluaciones y al mismo tiempo que es capaz de ejecutarse en una sola GPU.
  • Capacidades multimodales y multilingües: Los modelos 4B, 12B y 27B son capaces de procesar texto e imágenes, lo que permite aplicaciones que pueden analizar el contenido visual y el lenguaje. Además, estos modelos admiten más de 140 idiomas, lo que es útil para atender a diversas audiencias globales.
  • Ventana de contexto expandido: Con una ventana de contexto de 128,000 tokens (y 32,000 tokens para el modelo 1B), Gemma 3 es muy adecuada para tareas que requieren procesar grandes cantidades de información, como resumir documentos largos o administrar conversaciones extendidas.
  • Técnicas de capacitación avanzada: El proceso de capacitación incorpora el aprendizaje de refuerzo de la retroalimentación humana y otros métodos posteriores al entrenamiento que ayudan a alinear las respuestas del modelo con las expectativas del usuario mientras mantienen la seguridad.
  • Compatibilidad de hardware: Gemma 3 está optimizado no solo para las GPU NVIDIA sino también para Google Cloud TPUS, lo que lo hace adaptable en diferentes entornos informáticos. Esta compatibilidad ayuda a reducir los costos y la complejidad de implementar aplicaciones de IA avanzadas.

Información y evaluaciones de rendimiento

Las evaluaciones tempranas de Gemma 3 indican que los modelos funcionan de manera confiable dentro de su clase de tamaño. En un conjunto de pruebas, la variante 27B logró una puntuación de 1338 en una tabla de clasificación relevante, lo que indica su capacidad para ofrecer respuestas consistentes y de alta calidad sin requerir recursos de hardware extensos. Los puntos de referencia también muestran que los modelos son efectivos para manejar los datos de texto y visuales, gracias en parte a un codificador de visión que administra imágenes de alta resolución con un enfoque adaptativo.

La capacitación de estos modelos involucró un conjunto de datos grande y variado de texto e imágenes, hasta 14 billones de tokens para la variante más grande. Este régimen de capacitación integral respalda su capacidad para abordar una amplia gama de tareas, desde la comprensión del lenguaje hasta el análisis visual. La adopción generalizada de modelos Gemma anteriores, junto con una comunidad vibrante que ya ha producido numerosas variantes, subraya el valor práctico y la confiabilidad de este enfoque.

Conclusión: un enfoque reflexivo para la IA abierta y accesible

Gemma 3 representa un paso cuidadoso para hacer que la IA avanzada sea más accesible. Disponible en cuatro tamaños y capaz de procesar texto e imágenes en más de 140 idiomas, estos modelos ofrecen una ventana de contexto ampliada y están optimizados para la eficiencia en el hardware cotidiano. Su diseño enfatiza un enfoque equilibrado, que libera un rendimiento sólido al tiempo que incorpora medidas para garantizar un uso seguro.

En esencia, Gemma 3 es una solución práctica para desafíos de larga data en la implementación de IA. Permite a los desarrolladores integrar capacidades sofisticadas de lenguaje y visión en una variedad de aplicaciones, todo mientras mantienen énfasis en la accesibilidad, la confiabilidad y el uso responsable.


Verificar el Modelos en la cara abrazada y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Conozca a Parlant: un marco de IA conversacional LLM de LLM diseñado para proporcionar a los desarrolladores el control y la precisión que necesitan sobre sus agentes de servicio al cliente de IA, utilizando pautas de comportamiento y supervisión de tiempo de ejecución. 🔧a 🎛️ Se funciona utilizando una CLI fácil de usar 📟 y SDK de clientes nativos en Python y TypeScript 📦.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.