Screenshot 2024 01 29 At 11.18.30 Am.png

Con nuevos lanzamientos e introducciones en el campo de la Inteligencia Artificial (IA), los Modelos de Lenguaje Grande (LLM) están avanzando significativamente. Están mostrando su increíble capacidad para generar y comprender el lenguaje natural. Sin embargo, los LLM con énfasis en inglés experimentan ciertas dificultades cuando manejan idiomas distintos del inglés, especialmente aquellos con recursos limitados. Aunque se reconoce la llegada de los LLM generativos multilingües, la cobertura lingüística de los modelos actuales se considera inadecuada.

Se alcanzó un hito importante cuando se introdujo el modelo de codificación automática XLM-R con 278 millones de parámetros y una cobertura de idiomas de 100 a 534 idiomas. Incluso los corpus Glot500-c, que abarcan 534 idiomas de 47 familias lingüísticas, beneficiaron a los idiomas de bajos recursos. Otras estrategias efectivas para abordar la escasez de datos incluyen la ampliación del vocabulario y la capacitación previa continua.

El éxito de la enorme adopción del lenguaje de estos modelos sirve de inspiración para más desarrollos en esta área. En un estudio reciente, un equipo de investigadores abordó específicamente las limitaciones de esfuerzos anteriores que se concentraban en modelos de tamaño pequeño, con el objetivo de ampliar las capacidades de los LLM para cubrir una gama más amplia de idiomas. Para mejorar la relevancia contextual y lingüística en una variedad de idiomas, el estudio analiza estrategias de adaptación lingüística para LLM con parámetros de modelo que escalan hasta 10 mil millones.

Existen dificultades para adaptar los LLM a idiomas de bajos recursos, incluidos problemas de escasez de datos, vocabulario peculiar de un área determinada y variación lingüística. El equipo ha sugerido soluciones, como ampliar el vocabulario, continuar capacitando LLM abiertos y utilizar estrategias de adaptación como la reparametrización de bajo rango LoRA.

Un equipo de investigadores asociados con LMU Munich, el Centro de Aprendizaje Automático de Munich, la Universidad de Helsinki, el Instituto Superior Técnico (Unidad ELLIS de Lisboa), el Instituto de Telecomunicações y Unbabel han ideado un modelo llamado MaLA-500. MaLA-500 es un nuevo modelo de lenguaje grande diseñado para abarcar un amplio espectro de 534 idiomas. La ampliación del vocabulario se ha utilizado en el entrenamiento de MaLA-500, junto con el entrenamiento previo continuo de LLaMA 2 utilizando Glot500-c. El equipo realizó un análisis utilizando el conjunto de datos SIB-200, que demostró que MaLA-500 funciona mejor que los LLM abiertos actualmente disponibles con tamaños de modelo comparables o ligeramente más grandes. Ha logrado algunos resultados de aprendizaje en contexto sorprendentes, describiendo la capacidad de un modelo para comprender y producir lenguaje dentro de un entorno particular, demostrando su adaptabilidad e importancia en una variedad de contextos lingüísticos.

MaLA-500 es una gran solución para la incapacidad de los LLM actuales de admitir idiomas de bajos recursos. Muestra resultados de aprendizaje en contexto de última generación a través de enfoques únicos, como la extensión de vocabulario y el entrenamiento previo continuo. La extensión de vocabulario es el proceso de ampliar el vocabulario del modelo para cubrir una gama más amplia de idiomas para que pueda comprender y producir material en una variedad de idiomas.

En conclusión, este estudio es importante porque aumenta la accesibilidad de los módulos de aprendizaje de idiomas (LLM), lo que los hace útiles para una amplia gama de casos de uso específicos de idiomas, particularmente para idiomas de bajos recursos.


Revisar la Papel y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.