Este artículo de IA de la Universidad de Washington propone modelos de lenguaje experto multilingüe (X-ELM): una nueva frontera para superar las limitaciones de los modelos multilingües

Los modelos de lenguaje multilingüe a gran escala son la base de muchas aplicaciones de procesamiento del lenguaje natural (PLN) multilingües y distintas del inglés. Estos modelos se entrenan con volúmenes masivos de texto en varios idiomas. Sin embargo, el inconveniente de su uso generalizado es que, debido a que se modelan numerosos lenguajes en un solo modelo, existe competencia por la capacidad limitada del modelo. Por lo tanto, esto da como resultado un rendimiento más bajo en idiomas individuales en comparación con los modelos monolingües. Este problema, conocido como la maldición del multilingüismo, afecta principalmente a las lenguas con pocos recursos.

Para superar el problema frecuente de que los modelos de lenguajes multilingües (LM) funcionen peor que los monolingües debido a la competencia entre idiomas por los parámetros del modelo, un equipo de investigadores de la Universidad de Washington, la Universidad Charles de Praga y el Instituto Allen de Inteligencia Artificial ha sugerido modelos de lenguaje experto multilingüe (X-ELM) como solución. Este enfoque incluye entrenar modelos de lenguaje por separado en partes de un corpus multilingüe.

El objetivo principal de X-ELM es reducir el conflicto entre idiomas para los parámetros del modelo al permitir la especialización autónoma de cada modelo de idioma en el conjunto en un subconjunto particular de datos multilingües. Este método tiene como objetivo preservar la eficiencia del conjunto mientras ajusta el nivel de competencia de cada modelo a un idioma determinado.

El equipo compartió que se realizó capacitación independiente en un subconjunto diferente de un corpus multilingüe para cada X-ELM. Al utilizar una técnica de conjunto, la capacidad del modelo se ha escalado de manera efectiva para reflejar todos los lenguajes del corpus con mayor precisión. El equipo también presentó x-BTM, una expansión del paradigma Branch-Train-Merge (BTM) diseñado para un entorno multilingüe más heterogéneo, con el fin de entrenar X-ELM.

x-BTM mejora los métodos BTM actuales al introducir un enfoque equilibrado de agrupación de datos multilingüe basado en la similitud tipológica. También incluye capacitación jerárquica de rondas múltiples (HMR), una técnica que educa eficazmente a nuevos expertos con conocimientos especializados de idiomas no descubiertos previamente u otras distribuciones de datos multilingües.

El artículo de investigación publicado por el equipo muestra que se pueden seleccionar expertos dinámicamente para realizar inferencias una vez que se entrenan los primeros X-ELM. Otras rondas de x-BTM con nuevos expertos derivados de los X-ELM actuales permiten que los modelos se ajusten a nuevas situaciones, ampliando el conjunto total de X-ELM sin cambiar a los expertos existentes.

En los experimentos se utilizaron veinte lenguajes y se adaptaron cuatro nuevos lenguajes para demostrar que los X-ELM funcionan mejor en diferentes condiciones experimentales que los modelos de lenguaje denso con el mismo presupuesto de computación. Los aumentos en la perplejidad observados en los lenguajes X-ELM se han distribuido uniformemente entre los recursos lingüísticos. La formación HMR ha demostrado ser un medio más eficaz para adaptar los modelos a nuevos lenguajes que las técnicas tradicionales de preformación adaptativa al lenguaje.

Los estudios han demostrado que X-ELM funciona mejor que los modelos multilingües entrenados conjuntamente en todos los idiomas considerados cuando se les proporcionan los mismos recursos computacionales. Sus mejoras de rendimiento también se aplican a las operaciones posteriores, lo que demuestra la utilidad del modelo en escenarios del mundo real. El modelo también puede adaptarse a nuevos idiomas sin sufrir un olvido catastrófico de idiomas aprendidos previamente gracias a su capacidad iterativa de agregar nuevos expertos al conjunto.

En conclusión, esta investigación aborda perfectamente las dificultades en el uso de modelos de lenguaje multilingüe (LM) masivos y presenta modelos de lenguaje experto multilingüe (X-ELM) como una solución potencial.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🧑‍💻 [FREE AI WEBINAR] ‘Cree análisis de imágenes/documentos en tiempo real con GPT-4 Vision’ (29 de enero de 2024)

Este artículo de IA de la Universidad de Washington propone modelos de lenguaje experto multilingüe (X-ELM): una nueva frontera para superar las limitaciones de los modelos multilingües

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Microsoft ha aflojado su control exclusivo sobre OpenAI y ahora la carrera por la inteligencia artificial parece abierta de par en par

Cómo crear una base de conocimientos de IA con capacidad de búsqueda completa con OpenKB, OpenRouter y Llama

Meta AI lanza Sapiens2: un modelo de visión centrado en el ser humano de alta resolución para pose, segmentación, normales, mapa de puntos y albedo

You missed

El nuevo acceso al hospital es clave para el plan de mejora de carreteras de Torrevieja por 6,3 millones de euros – The Leader

Claressa Shields reacciona a la victoria en el debut de Chrisean Rock en el boxeo profesional

Los científicos descubren por qué los gatos de repente dejan de comer su comida: ScienceAlert

Melania Trump se desliza hasta el fondo e intenta que despidan a Jimmy Kimmel