Google AI publica Increddinggemma: un modelo de incrustación de parámetros de 308 m en el dispositivo con resultados de MTEB de última generación

Incrustación Es el nuevo modelo de incrustación de texto abierto de Google optimizado para la IA en el dispositivo, diseñado para equilibrar la eficiencia con el rendimiento de recuperación de última generación.

¿Qué tan compacto es incrustargemma en comparación con otros modelos?

Solo 308 millones de parámetrosIncreddinggemma es lo suficientemente liviano como para ejecutarse en dispositivos móviles y entornos fuera de línea. A pesar de su tamaño, funciona de manera competitiva con modelos de incrustación mucho más grandes. La latencia de inferencia es baja (sub-15 ms para 256 tokens en EdgetPu), lo que lo hace adecuado para aplicaciones en tiempo real.

¿Qué tan bien funciona en puntos de referencia multilingües?

Incrustdinggemma fue entrenado Más de 100 idiomas y logró el La mejor clasificación en el texto masivo de referencia de incrustación (MTEB) Entre modelos de menos de 500 m parámetros. Su rendimiento rivaliza o excede la incrustación de modelos casi el doble de su tamaño, particularmente en la recuperación interlingüística y la búsqueda semántica.

https://developers.googleblog.com/en/introducing-embeddinggemma/
https://developers.googleblog.com/en/introducing-embeddinggemma/

¿Cuál es la arquitectura subyacente?

Increddinggemma se basa en un Backbone de codificador con 3 a Gemma con agrupación media. Es importante destacar que la arquitectura no utiliza las capas de atención bidireccionales específicas multimodal que Gemma 3 aplica para las entradas de imágenes. En su lugar, incrustargemma emplea un Pila de codificadores de transformador estándar con autoatención de secuencia completaque es típico para los modelos de incrustación de texto.

Este codificador produce Incrustaciones de 768 dimensiones y admite secuencias hasta 2.048 fichashaciéndolo bien adecuado para la generación de recuperación acuática (RAG) y la búsqueda de documentos largos. El paso de agrupación medio garantiza representaciones vectoriales de longitud fija independientemente del tamaño de entrada.

¿Qué hace que sus incrustaciones sean flexibles?

Incrustargemma emplea Matryoshka Representing Learning (MRL). Esto permite que los incrustaciones se truncen desde 768 dimensiones hasta 512, 256 o incluso 128 dimensiones con una pérdida mínima de calidad. Los desarrolladores pueden sintonizar la compensación entre la eficiencia de almacenamiento y la precisión de recuperación sin reentrenamiento.

¿Puede funcionar completamente fuera de línea?

Sí. Increddinggemma fue diseñado específicamente para En el dispositivo, casos de uso fuera de línea. Ya que comparte un tokenizer con Gemma 3nlas mismas incrustaciones pueden alimentar directamente las tuberías de recuperación compactas para los sistemas locales de trapo, con beneficios de privacidad al evitar la inferencia de la nube.

¿Qué herramientas y marcos admiten Increddinggemma?

Se integra a la perfección con:

  • Cara abrazada (Transformadores, Transformadores de oraciones, Transformers.js)
  • Langchain y Llamado para tuberías de trapo
  • Tejido y otras bases de datos de vectores
  • Tiempo de ejecución de ONNX Para una implementación optimizada en todas las plataformas
    Este ecosistema garantiza que los desarrolladores puedan colocarlo directamente en los flujos de trabajo existentes.

¿Cómo se puede implementar en la práctica?

(1) Cargar e incrustar

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("google/embeddinggemma-300m")
emb = model.encode(["example text to embed"])

(2) Ajustar el tamaño de la incrustación
Use 768 dims completos para la máxima precisión o truncar a 512/256/128 DIMS para memoria inferior o recuperación más rápida.

(3) Integrar en trapo
Ejecutar la búsqueda de similitud localmente (similitud de coseno) y alimentar los resultados superiores en Gemma 3n para la generación. Esto permite un completamente tubería de trapo fuera de línea.

¿Por qué incrustargemma?

  1. Eficiencia a escala – Alta precisión de recuperación multilingüe en una huella compacta.
  2. Flexibilidad – Dimensiones de incrustación ajustable a través de MRL.
  3. Privacidad -tuberías fuera de línea de extremo a extremo sin dependencias externas.
  4. Accesibilidad – Pesos abiertos, licencias permisivas y un fuerte soporte del ecosistema.

Increddinggemma demuestra que Los modelos de incrustación más pequeños pueden lograr el mejor rendimiento de recuperación mientras es lo suficientemente ligero para la implementación fuera de línea. Marca un paso importante hacia la IA eficiente, consciente de la privacidad y escalable en el dispositivo.


Mira el Modelo y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.