Conozca KaLM-Embedding: una serie de modelos de incrustación multilingües creados sobre Qwen2-0.5B y lanzados bajo el MIT

Las aplicaciones multilingües y las tareas multilingües son fundamentales para el procesamiento del lenguaje natural (PLN) en la actualidad, lo que hace que los modelos de integración sólidos sean esenciales. Estos modelos sustentan sistemas como la generación aumentada de recuperación y otras soluciones impulsadas por IA. Sin embargo, los modelos existentes a menudo tienen problemas con datos de entrenamiento ruidosos, diversidad de dominios limitada e ineficiencias en la gestión de conjuntos de datos multilingües. Estas limitaciones afectan el rendimiento y la escalabilidad. Investigadores del Instituto de Tecnología de Harbin (Shenzhen) han abordado estos desafíos con KaLM-Embedding, un modelo que enfatiza la calidad de los datos y metodologías de capacitación innovadoras.

KaLM-Embedding es un modelo de incrustación multilingüe construido sobre Qwen 2-0.5B y lanzado bajo la licencia MIT.. Diseñado teniendo en cuenta la compacidad y la eficiencia, es particularmente adecuado para aplicaciones del mundo real donde los recursos computacionales son limitados.

El diseño centrado en datos del modelo es una fortaleza clave. Incorpora 550.000 muestras de datos sintéticos generados utilizando técnicas basadas en personas para garantizar la diversidad y la relevancia. Además, emplea un filtrado de coherencia de clasificación para eliminar muestras ruidosas y falsas negativas, lo que mejora la calidad y la solidez de los datos de entrenamiento.

Características técnicas y ventajas

KaLM-Embedding incorpora metodologías avanzadas para ofrecer potentes incrustaciones de texto multilingüe. Una característica notable es Matryoshka Representation Learning, que admite dimensiones de incrustación flexibles. Esta adaptabilidad permite optimizar las incrustaciones para diferentes aplicaciones, que van desde 64 a 896 dimensiones.

La estrategia de formación consta de dos etapas: preformación supervisada débilmente y ajuste fino supervisado. Durante el ajuste se utilizaron más de 70 conjuntos de datos diversos, que abarcan una variedad de idiomas y dominios. El procesamiento por lotes de tareas semihomogéneo perfeccionó aún más el proceso de capacitación al equilibrar los desafíos que plantean los negativos en el lote con el riesgo de falsos negativos.

KaLM-Embedding también se beneficia de su base en Qwen 2-0.5B, un modelo de lenguaje autorregresivo previamente entrenado. Esta arquitectura permite una adaptación efectiva a las tareas de integración, ofreciendo una ventaja sobre los modelos tradicionales tipo BERT.

Resultados de rendimiento y de referencia

El rendimiento de KaLM-Embedding se evaluó en el Massive Text Embedding Benchmark (MTEB). Logró una puntuación media de 64,53, estableciendo un alto estándar para modelos con menos de mil millones de parámetros. Las puntuaciones de 64,13 en chino-MTEB y 64,94 en inglés-MTEB resaltan sus capacidades multilingües. A pesar de los limitados datos de ajuste para algunos idiomas, el modelo demostró fuertes capacidades de generalización.

Los estudios de ablación proporcionaron información adicional. Se demostró que funciones como el aprendizaje de representación de Matryoshka y el filtrado de coherencia de clasificación mejoran el rendimiento. Sin embargo, los estudios también destacaron áreas de mejora, como perfeccionar las incrustaciones de bajas dimensiones para aumentar aún más la eficacia.

Conclusión: un paso adelante en las incorporaciones multilingües

KaLM-Embedding representa un avance significativo en los modelos de incrustación multilingües. Al abordar desafíos como datos ruidosos y arquitecturas inflexibles, logra un equilibrio entre eficiencia y rendimiento. La versión de código abierto bajo la licencia del MIT invita a investigadores y profesionales a explorar y desarrollar este trabajo.

Con su sólido rendimiento multilingüe y metodologías innovadoras, KaLM-Embedding está bien posicionado para diversas aplicaciones, desde sistemas de recuperación aumentada hasta tareas multilingües. A medida que continúa creciendo la necesidad de soluciones de PNL multilingües, KaLM-Embedding sirve como testimonio del impacto de los datos de alta calidad y el diseño de modelos bien pensado.


Verificar el Papel, Modelosy Código. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.