Investigadores de KAIST y la Universidad de Washington han presentado ‘LANGBRIDGE’: un enfoque de IA de disparo cero para adaptar modelos de lenguaje para tareas de razonamiento multilingüe sin supervisión multilingüe

Los modelos de lenguaje (LM) a menudo tienen dificultades con tareas de razonamiento como matemáticas o codificación, particularmente en lenguajes de bajos recursos. Este desafío surge porque los LM se capacitan principalmente con datos de unos pocos idiomas de altos recursos, lo que deja a los idiomas de bajos recursos subrepresentados.

Anteriormente, los investigadores han abordado este problema capacitando continuamente a los LM centrados en el inglés en los idiomas de destino. Sin embargo, este método es difícil de ampliar en muchos idiomas debido a la necesidad de datos de entrenamiento específicos para cada idioma. Este problema podría ser más problemático para LM especializados como MetaMath y Orca 2, que han sufrido una adaptación de dominio específico principalmente en inglés.

Investigadores de KAIST y la Universidad de Washington han introducido ‘LANGBRIDGE’, un método novedoso para adaptar LM a tareas de razonamiento multilingües sin requerir datos de entrenamiento multilingües explícitos. LANGBRIDGE combina dos modelos especializados: uno experto en comprender múltiples lenguajes (como un codificador mT5) y otro centrado en el razonamiento (como Orca 2). Al introducir parámetros mínimos entrenables entre ellos, LANGBRIDGE conecta esos modelos de manera efectiva.

Es importante destacar que su enfoque no requiere supervisión multilingüe y se basa únicamente en datos en inglés, al mismo tiempo que se generaliza a varios idiomas durante las pruebas, de forma similar a la transferencia cruzada entre idiomas. Demuestran la eficacia de LANGBRIDGE en LM especializados en razonamiento matemático, codificación y razonamiento lógico. Los resultados empíricos muestran mejoras significativas en el rendimiento del razonamiento multilingüe.

Aunque está entrenado únicamente con datos en inglés, LANGBRIDGE mejora significativamente el rendimiento de los modelos de lenguaje en idiomas de bajos recursos en diversas tareas de razonamiento como matemáticas, codificación y lógica. Su análisis indica que el éxito de LANGBRIDGE se debe a la naturaleza independiente del lenguaje de las representaciones multilingües inspiradas en la literatura multimodal. Por ejemplo, la aplicación de LANGBRIDGE a MetaMath-13B utilizando el codificador mT5-XXL aumenta la precisión promedio en MGSM del 40,5% al ​​55,8%, igualando el rendimiento de PaLM540B en 51,3%.

Plantean la hipótesis de que la eficacia de LANGBRIDGE radica en la naturaleza independiente del lenguaje de las representaciones multilingües. Al asignar estas representaciones al espacio de entrada de los LM, el LM puede captar su semántica, haciendo que el lenguaje específico de la entrada sea irrelevante. El análisis empírico que utiliza técnicas como el análisis de componentes principales (PCA) y métodos cualitativos respalda su hipótesis.

Aunque las representaciones multilingües son generalmente independientes del idioma, investigaciones anteriores sugieren que se pueden mejorar. Si bien LANGBRIDGE tiene el potencial de generalizarse a todos los idiomas admitidos por el codificador multilingüe, su eficacia para mejorar la capacidad de razonamiento de un idioma específico depende de dos factores principales: el dominio inicial del modelo de lenguaje en ese idioma y el dominio del modelo de codificador. en ese idioma.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.