Conozca a Sailor: un conjunto de modelos de lenguaje abierto para superar las barreras lingüísticas en el sudeste asiático

En el panorama en constante evolución de la lingüística computacional, superar las barreras lingüísticas ha dado lugar a innovaciones notables, particularmente en regiones caracterizadas por un rico tapiz de idiomas. El sudeste asiático, con su diversidad lingüística, presenta un desafío único para la tecnología del lenguaje. Los modelos tradicionales a menudo necesitan ayuda para comprender las diferencias y similitudes matizadas entre idiomas como el indonesio, el tailandés, el vietnamita, el malayo y el laosiano, lo que dificulta significativamente su aplicabilidad en escenarios del mundo real.

Un equipo de investigadores del Sea AI Lab y la Universidad de Tecnología y Diseño de Singapur ha presentado “Sailor”, un ambicioso conjunto de modelos lingüísticos adaptados a las complejidades lingüísticas de la región del sudeste asiático. A diferencia de los enfoques convencionales que podrían depender de modelos genéricos de talla única, Sailor se distingue por un meticuloso proceso de manejo de datos que incluye una cuidadosa selección, una agresiva deduplicación y algoritmos de combinación innovadores. Esta metodología garantiza que Sailor esté profundamente en sintonía con los matices lingüísticos de los idiomas del sudeste asiático, lo que facilita la generación y comprensión de textos más precisos y significativos.

Construido sobre los robustos modelos Qwen 1.5, Sailor ha sido entrenado previamente en un corpus expansivo que oscila entre 200 y 400 mil millones de tokens, con un enfoque deliberado en idiomas de la región del sudeste asiático. Esta amplia formación previa ha dotado a Sailor de la capacidad de comprender y generar texto en un amplio espectro de idiomas, sentando así un nuevo precedente en el campo de la tecnología lingüística multilingüe. Las variantes de modelo ofrecidas por Sailor, que van desde 0,5B a 7B de tamaño, están diseñadas para satisfacer diversas necesidades computacionales, garantizando una amplia accesibilidad y utilidad.

La eficacia de los modelos Sailor queda subrayada por su desempeño en diversas tareas de evaluación comparativa, un testimonio de su diseño e implementación superiores. En tareas como respuesta a preguntas, razonamiento de sentido común, comprensión lectora y exámenes estandarizados adaptados a los idiomas del sudeste asiático, los modelos Sailor han demostrado una competencia notable. Por ejemplo, en la categoría de respuesta a preguntas, el modelo Sailor-7B logró una puntuación de coincidencia exacta del 57,88 % en el punto de referencia XQuAD (tailandés), una puntuación del 60,53 % en TydiQA (indonesio) y un 53,81 % en XQuAD (vietnamita), superando sus predecesores y estableciendo nuevos puntos de referencia en cuanto a precisión y confiabilidad.

El desempeño del marinero en razonamiento de sentido común y comprensión de lectura ejemplifica aún más sus capacidades de comprensión avanzada. En el punto de referencia XCOPA, el modelo Sailor-7B alcanzó una precisión del 72,2 % en tareas tailandesas, indonesias y vietnamitas, lo que demuestra su habilidad para interpretar y razonar con textos complejos. De manera similar, en comprensión lectora, evaluada a través del punto de referencia Belebele, las puntuaciones de Sailor-7B fueron impresionantemente altas, con 44,33% en indonesio, 45,33% en vietnamita y 41,56% en tailandés.

En conclusión, la introducción de Sailor es un importante paso adelante en la búsqueda de modelos lingüísticos integrales que puedan navegar por el complejo panorama lingüístico del sudeste asiático. Al combinar metodologías avanzadas con un enfoque inclusivo de la diversidad lingüística, Sailor aborda la necesidad apremiante de tecnologías lingüísticas personalizadas en la región y ofrece un plan para avances futuros. El éxito de Sailor en las tareas de evaluación comparativa resalta el potencial de los modelos especializados para mejorar nuestra comprensión e interacción en el campo de la lingüística computacional.


Revisar la GitHub, Modelos y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.