Los Large Language Models (LLM) tienen inmensas capacidades que han avanzado notablemente en los últimos años. Dos causas principales de este aumento son el crecimiento exponencial de datos de Internet y los avances continuos en los métodos de preformación. Modelos destacados como GPT, Gemini y Llama han elevado el listón en varias áreas, incluido el razonamiento lógico, la codificación y la escritura creativa.
El calibre y el volumen de los conjuntos de datos en los que se entrenan estos modelos impactan significativamente su efectividad. Debido a que hay tanto contenido en inglés disponible en línea, el inglés se está convirtiendo en el idioma principal utilizado para capacitar a los LLM. Esta dependencia de conjuntos de datos en inglés ha dificultado la obtención de un rendimiento comparable en otros idiomas. La maldición del multilingüismo se refiere a la posibilidad de que los modelos que fueron entrenados principalmente con datos en inglés puedan tener un rendimiento inferior en idiomas distintos del inglés como resultado de una exposición insuficiente durante el entrenamiento previo.
Para superar esto, en una investigación reciente, un equipo de investigadores de Sea AI Lab, Singapur y SUTD, Singapur, presentaron el proyecto Sailor, un conjunto de modelos de lenguaje gratuitos creados especialmente para los idiomas del Sudeste Asiático (SEA). Estos modelos tienen parámetros que van desde 0,5B a 7B y están diseñados para adaptarse a la variedad lingüística de la región. Se basan en el modelo de lenguaje flexible Qwen1.5, que está diseñado para aplicaciones multilingües.
Los modelos de marineros han sido preentrenados continuamente utilizando un gran corpus de tokens de 200B a 400B, comenzando con Qwen1.5. Los idiomas que componen la mayor parte de este corpus incluyen inglés, chino, vietnamita, tailandés, indonesio, malayo y laosiano, todos los cuales son importantes en la región del sudeste asiático. El procedimiento de capacitación utiliza esta gran cantidad de datos para aplicar una serie de estrategias destinadas a mejorar el rendimiento del modelo.
La abandono de BPE (codificación de pares de bytes) es uno de esos métodos que se ha utilizado para aumentar la resiliencia de los modelos. El abandono de BPE mejora la capacidad del modelo para generalizar a través de diversos patrones y situaciones de lenguaje al tiempo que ayuda a mitigar los problemas de sobreajuste.
El proceso de capacitación también incorpora rigurosos procesos de deduplicación y limpieza de datos. Estas acciones son fundamentales para garantizar el calibre del conjunto de entrenamiento, lo que mejora el rendimiento general de los modelos Sailor. Los modelos ganan precisión y confiabilidad en sus pronósticos al eliminar datos superfluos y ruido.
El equipo compartió que la combinación de datos de entrenamiento se optimizó mediante el uso de pequeños modelos proxy. Este método permite el ajuste de hiperparámetros, como la proporción de mezcla de datos, lo que mejora la efectividad del proceso de capacitación y, a su vez, mejora el rendimiento del modelo.
Los experimentos en una variedad de tareas, como exámenes, respuesta a preguntas, comprensión lectora y pensamiento con sentido común, han demostrado cuán resistentes y útiles son los modelos Sailor en comparación con diversos estándares. Estos hallazgos resaltan el potencial de los modelos Sailor para ayudar a los problemas lingüísticos de la región SEA en un amplio espectro.
En conclusión, la investigación presenta una metodología exhaustiva para crear LLM que funcionen eficazmente en la variedad de idiomas de la región SEA, abordando cuestiones como el multilingüismo y la calidad de los datos mientras utiliza algunos métodos excelentes para mejorar la resiliencia y el rendimiento del modelo.
Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 40.000 ml
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.