Este artículo de IA de China presenta BGE-M3: un nuevo miembro de la serie de modelos BGE con multilingüe (más de 100 idiomas)

BAAI presenta BGE M3-Embedding con la ayuda de investigadores de la Universidad de Ciencia y Tecnología de China. El M3 se refiere a tres propiedades novedosas de la incrustación de texto: multilingüe, multifuncional y multigranularidad. Identifica los principales desafíos en los modelos de integración existentes, como la imposibilidad de admitir varios idiomas, restricciones en las funcionalidades de recuperación y dificultad para manejar granularidades de entrada variadas.

Se ha demostrado que los modelos de integración existentes, como Contriever, GTR, E5 y otros, aportan avances notables en este campo, pero carecen de soporte de idiomas, funcionalidad de recuperación múltiple o textos de entrada largos. Estos modelos están entrenados principalmente solo para inglés y admiten solo una funcionalidad de recuperación. La solución propuesta, BGE M3-Embedding, admite más de 100 idiomas, admite diversas funcionalidades de recuperación (recuperación densa, dispersa y multivectorial) y procesa datos de entrada que van desde oraciones cortas hasta documentos extensos que manejan hasta 8192 tokens.

M3-Embedding implica un novedoso enfoque de destilación del autoconocimiento, que optimiza las estrategias de procesamiento por lotes para grandes longitudes de entrada, para lo cual los investigadores utilizaron conjuntos de datos multilingües diversos y a gran escala de diversas fuentes como Wikipedia y S2ORC. Facilita tres funcionalidades de recuperación comunes: recuperación densa, recuperación léxica y recuperación multivectorial. El proceso de destilación implica combinar puntuaciones de relevancia de varias funcionalidades de recuperación para crear una señal del maestro que permita al modelo realizar múltiples tareas de recuperación de manera eficiente.

El modelo se evalúa por su desempeño con texto multilingüe (MLDR), longitud de secuencia variada y respuestas narrativas de control de calidad. La métrica de evaluación fue nDCG@10 (ganancia acumulada descontada normalizada). Los experimentos demostraron que el modelo de integración M3 superó a los modelos existentes en más de 10 idiomas, dando resultados a la par en inglés. El rendimiento del modelo fue similar al de otros modelos con longitudes de entrada más pequeñas, pero mostró resultados mejorados con textos más largos.

En conclusión, la incrustación M3 es un avance significativo en los modelos de incrustación de texto. Es una solución versátil que admite múltiples idiomas, variadas funcionalidades de recuperación y diferentes granularidades de entrada. El modelo propuesto aborda limitaciones cruciales en los métodos existentes, lo que marca un paso sustancial hacia la recuperación de información. Supera a los métodos básicos como BM25, mDPR y E5, lo que demuestra su eficacia para abordar los desafíos identificados.

Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.

🎯 [FREE AI WEBINAR] ‘Uso de ANN para búsqueda de vectores a velocidad y escala (demostración en AWS)’ (5 de febrero de 2024)

Este artículo de IA de China presenta BGE-M3: un nuevo miembro de la serie de modelos BGE con multilingüe (más de 100 idiomas)

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cursor presenta un SDK de TypeScript para crear agentes de codificación programática con máquinas virtuales en la nube protegidas, subagentes, enlaces y precios basados en tokens

IBM lanza dos modelos Granite Speech 4.1 2B: ASR autorregresivo con traducción y edición no autorregresiva para una inferencia rápida

Qwen Team lanza FlashQLA: una biblioteca de kernel de atención lineal de alto rendimiento que logra una aceleración de hasta 3 veces en las GPU NVIDIA Hopper

You missed

JOMOO, la marca de baños número uno de China y una de las tres principales a nivel mundial, debuta en Hong Kong

EJECUTADO Y ENTERRADO: Nueva detención después de que un empresario alicantino fuera encontrado bajo dos metros de hormigón tras un brutal ataque con cuchillo

Christine Quinn y Heather Rae El Moussa regresan

Cursor presenta un SDK de TypeScript para crear agentes de codificación programática con máquinas virtuales en la nube protegidas, subagentes, enlaces y precios basados en tokens