Lanzamiento de Deepset-Mxbai-Embed-de-Large-v1: un nuevo modelo de integración en alemán e inglés de código abierto

Deepset y Mixedbread han dado un paso audaz para abordar el desequilibrio en el panorama de la IA que favorece predominantemente a los mercados de habla inglesa. Han presentado un innovador modelo de integración de alemán/inglés de código abierto. deepset-mxbai-incrustado-de-grande-v1para mejorar las capacidades multilingües en el procesamiento del lenguaje natural (PLN).

Este modelo se basa en intfloat/multilingual-e5-large y se ha perfeccionado en más de 30 millones de pares de datos alemanes, especialmente diseñados para tareas de recuperación. Una de las métricas clave utilizadas para evaluar las tareas de recuperación es NDCG@10, que mide la precisión de los resultados de la clasificación en comparación con una lista ordenada de manera ideal. Deepset-mxbai-embed-de-large-v1 ha establecido un nuevo estándar para los modelos de incrustación alemanes de código abierto, compitiendo favorablemente con las alternativas comerciales.

El modelo deepset-mxbai-embed-de-large-v1 ha demostrado un rendimiento promedio de 51,7 en la métrica NDCG@10, superando a otros modelos como multilingual-e5-large y jina-embeddings-v2-base-de. Este rendimiento subraya su confiabilidad y eficacia en el manejo de tareas en idioma alemán, lo que lo convierte en una herramienta valiosa para desarrolladores e investigadores.

Los desarrolladores se han centrado en optimizar el almacenamiento y la eficiencia de inferencia. Se han empleado dos técnicas innovadoras: aprendizaje de representación Matryoshka (MRL) y cuantificación binaria.

  • El aprendizaje de representación de Matryoshka reduce la cantidad de dimensiones de salida en el modelo de incrustación sin una pérdida significativa de precisión al modificar la función de pérdida para priorizar la información importante en las dimensiones iniciales. Esto permite el truncamiento de dimensiones posteriores, lo que mejora la eficiencia.
  • La cuantificación binaria convierte valores float32 en valores binarios, lo que reduce significativamente el uso de memoria y espacio en disco y, al mismo tiempo, mantiene un alto rendimiento durante la inferencia. Estas optimizaciones hacen que el modelo no solo sea potente, sino que también utilice los recursos de manera eficiente.

Los usuarios pueden integrar fácilmente deepset-mxbai-embed-de-large-v1 con el marco de Haystack utilizando componentes como SentenceTransformersDocumentEmbedder y SentenceTransformersTextEmbedder. Mixedbread proporciona una integración perfecta a través de MixedbreadDocumentEmbedder y MixedbreadTextEmbedder. Para utilizar el modelo con los incrustadores de transformadores de oraciones de Haystack, los usuarios deben instalar ‘pan mixto-ai-pajar’ y exportar su clave API de Mixedbread a ‘CLAVE API MXBAI.’

En conclusión, basándose en el éxito del modelo alemán BERT, Deepset y Mixedbread anticipan que su nuevo modelo de integración de última generación permitirá a la comunidad de IA de habla alemana desarrollar productos innovadores, particularmente en la generación aumentada por recuperación (RAG) y más allá.


Revisar la Detalles y Modelo. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.