Los modelos de idiomas grandes (LLM) han mostrado capacidades excepcionales en tareas de razonamiento complejos a través de avances recientes en escala y enfoques de capacitación especializados. Si bien modelos como OpenAI O1 y Deepseek R1 han establecido nuevos puntos de referencia para abordar los problemas de razonamiento, existe una disparidad significativa en su desempeño en diferentes idiomas. El dominio del inglés y el chino en los datos de capacitación para modelos fundamentales como Llama y Qwen ha creado una brecha de capacidad sustancial para los idiomas de baja recursos. Sin embargo, estos modelos enfrentan desafíos como el uso incorrecto de los personajes y el cambio de código. Estos problemas se pronuncian durante los procesos de aprendizaje de ajuste y refuerzo centrado en el razonamiento.

Han surgido iniciativas regionales de LLM para abordar las limitaciones de lenguaje de baja recursos a través de enfoques especializados de pretruación y post-entrenamiento. Proyectos como Typhoon, Sailor, Eurollm, Aya, Sea-Lion y SealLM se han centrado en adaptar modelos para idiomas objetivo específicos. Sin embargo, el enfoque centrado en los datos para adaptar las capacidades de razonamiento carece de transparencia en las recetas de datos del modelo de razonamiento. Además, la escala requiere recursos computacionales sustanciales, como lo demuestran los requisitos de Deepseek R1 70b de 800k ejemplos para la destilación y el SFT general, superando con creces los esfuerzos académicos como Sky-T1 y Stratos a medida. La fusión del modelo ha surgido como un enfoque alternativo, que muestra prometedor al combinar múltiples pesos de modelos especializados para mejorar el rendimiento entre las tareas sin capacitación adicional.

Investigadores del grupo SCB 10X R&D y SCBX Group Bangkok, Tailandia, han propuesto un enfoque innovador para mejorar las capacidades de razonamiento en LLM específicas del lenguaje, particularmente centrándose en modelos de idiomas tailandeses. La investigación combina la selección de datos y los métodos de fusión de modelos para incorporar capacidades de razonamiento avanzado similares a Deepseek R1 mientras se mantiene el dominio del lenguaje de destino. El estudio aborda el desafío crítico de mejorar las habilidades de razonamiento en modelos de lenguaje de baja recursos, utilizando solo conjuntos de datos disponibles públicamente y un modesto presupuesto computacional de $ 1,201, que coincide con las capacidades de razonamiento de Deepseek R1 sin comprometer el rendimiento en las tareas de idiomas de destino.

La metodología implementada utiliza typhoon2 70b instruct y profundo r1 70b destilado como modelos base. El enfoque implica aplicar el ajuste fino supervisado (SFT) a Typhoon2 70b y fusionarlo con Deepseek R1 70B. La configuración de capacitación emplea a Lora con parámetros específicos: rango 32 y α de 16. El sistema utiliza el empaque de secuencia con 16,384 longitudes máximas, junto con los núcleos de Liger, FlashAtentent-2 y Deepeed Zero-3 para optimizar la eficiencia computacional. El entrenamiento funciona con 4 × GPU H100 durante hasta 15 horas usando Axolotl4, con la fusión del modelo realizada a través de MergeKit. La evaluación se centra en dos aspectos clave: capacidad de razonamiento y rendimiento de la tarea del lenguaje, utilizando puntos de referencia como AIME 2024, Math-500 y LivecodeBench, con traducciones tailandesas para la evaluación.

Los resultados experimentales revelan que Deepseek R1 70b Destill Sestel se destaca en tareas de razonamiento como AIME y MATH500, pero muestra una efectividad reducida en tareas específicas de tailandés como Mtbench-Th y Language Precuricions. Typhoon2 70B Instruce muestra un fuerte rendimiento en las tareas específicas del lenguaje, pero lucha con desafíos de razonamiento, logrando solo una precisión del 10% en AIME y un spoinseek R1 por más de un 20% en Math500. El modelo final, Typhoon2-R1-70B, combina las capacidades de razonamiento de Deepseek R1 con el dominio del lenguaje tailandés de Typhoon2, logrando el rendimiento dentro del 4% de Typhoon2 en tareas de idiomas al tiempo que mantiene habilidades de razonamiento comparable. Esto da como resultado mejoras de rendimiento de 41.6% sobre Typhoon2 y 12.8% sobre Deepseek R1.

En conclusión, los investigadores presentan un enfoque para mejorar las capacidades de razonamiento en los modelos específicos del lenguaje, a través de la combinación de modelos especializados. Si bien el estudio demuestra que la fusión SFT y el modelo puede transferir efectivamente las capacidades de razonamiento con recursos limitados, existen varias limitaciones en la metodología actual. El alcance de la investigación se limitó a fusionar DARE en una configuración de dos modelos dentro de una sola familia de modelos, sin optimizar el ajuste de instrucciones a pesar de los conjuntos de datos de alta calidad disponibles como TULU3. Los desafíos significativos persisten en el razonamiento multilingüe y la fusión del modelo, incluida la falta de rastros de razonamiento culturalmente conscientes. A pesar de estos desafíos, la investigación marca un paso hacia el avance de las capacidades de LLM en idiomas subrepresentados.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

Por automata