Este artículo sobre inteligencia artificial revela cómo el ajuste de instrucciones multilingües impulsa la comprensión interlingüística en modelos de lenguajes grandes

La optimización de modelos de lenguaje grande (LLM) para el seguimiento de instrucciones multilingües constituye un área importante de investigación. Estos modelos, fundamentales para procesar varios lenguajes humanos, han experimentado un aumento en su adopción global. El desafío radica en mejorar su capacidad para interpretar y responder a instrucciones en diferentes idiomas. Anteriormente, esto se lograba mediante el ajuste de la instrucción monolingüe, en el que un modelo se entrena exhaustivamente en un idioma, con la esperanza de transferir este aprendizaje a otros. Sin embargo, este método está limitado por su gran dependencia de grandes cantidades de datos específicos del idioma, lo que plantea un desafío en términos de recursos y escalabilidad.

Investigadores de la Universidad de Tel Aviv y Google Research introdujeron un enfoque para abordar este problema, centrándose en la integración de un conjunto pequeño pero diverso de ejemplos multilingües en el proceso de ajuste de instrucciones. Este método se aleja de la tradicional sintonización monolingüe y ofrece una experiencia más vía eficiente en el uso de recursos para mejorar las capacidades multilingües de los LLM. Los investigadores exploran el impacto de la incorporación solo una fracción de datos multilingües en un formato que de otro modo Conjunto de afinación centrado en inglés.examinando su influencia en la competencia del modelo en múltiples idiomas.

Los investigadores utilizaron un LLM multilingüe moderno y afinado utilizando programas abiertos y de alta calidad. instrucciones y respuestas en 12 idiomas, abarcando varios familias de lenguas y sistemas de escritura. La puesta a punto implicó dos estrategias principales. Primero, los modelos individuales se ajustaron utilizando datos de cada idioma. por separado. En segundo lugar, un enfoque mixto se empleó, donde un pequeño porcentaje del juego de afinación inglés fue reemplazado por ejemplos multilingües distribuidos uniformemente entre los 12 idiomas. Luego se evaluó la capacidad de los modelos para seguir instrucciones en todos los idiomas, incluidos los no representado en el conjunto de entrenamiento.

Los modelos ajustados incluso con una cantidad mínima de datos multilingües mostraron una mejora significativa en las capacidades de seguimiento de instrucciones en varios idiomas. Esto fue cierto tanto para los idiomas vistos durante la fase de sintonización como para los que no. La introducción de sólo 40 ejemplos multilingües en el conjunto de ajuste en inglés mejoró notablemente el rendimiento del modelo en varios idiomas. El estudio reveló que los modelos sintonizados con mezclas multilingües tuvieron un rendimiento comparable o incluso mejor que aquellos sintonizados con datos monolingües a pesar de la reducción significativa de ejemplos de idiomas específicos.

En conclusión, la investigación presenta varios hallazgos clave:

  1. Un pequeño conjunto de ejemplos multilingües mejora significativamente la capacidad de los LLM para comprender y seguir instrucciones en varios idiomas.
  2. La sintonización multilingüe proporciona un rendimiento comparable o superior en varios idiomas en comparación con la sintonización monolingüe tradicional.
  3. La eficiencia lograda en el ajuste de la instrucción multilingüe con datos mínimos indica un enfoque escalable para desarrollar LLM para aplicaciones globales.
  4. El estudio subraya el potencial de aprovechar la diversidad en los datos de capacitación para lograr capacidades lingüísticas más amplias en los LLM.

Estos conocimientos allanan el camino para métodos más eficientes y escalables en el desarrollo de LLM multilingües, lo que demuestra que los datos extensos específicos del idioma pueden no ser tan cruciales como se pensaba anteriormente. Las implicaciones de esta investigación son enormes y ofrecen una ruta más eficaz en cuanto a recursos para mejorar las capacidades multilingües de los LLM.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.