Los modelos de idiomas grandes (LLM) han demostrado notables capacidades de razonamiento en diversas tareas, con el aprendizaje de refuerzo (RL) que sirve como un mecanismo crucial para refinar sus habilidades de pensamiento profundo. Mientras que las técnicas RL han mostrado un éxito particular en los dominios de razonamiento matemático y codificación con reglas bien definidas y criterios de corrección verificables, extendiendo estos enfoques a contextos de razonamiento más amplios presenta desafíos significativos, incluidos datos de capacitación limitados y dificultades para garantizar la generalización del dominio cruzado.
Evolución del razonamiento en LLMS
El desarrollo de la metodología de la cadena de pensamiento (COT) marcó un avance significativo en las capacidades de razonamiento de LLM. Cuna tiene demostrado sustancial mejoras al otro lado de matemáticas, ciencia, y programación dominios mediante la incorporación de procesos de razonamiento intermedio de varios pasos antes de llegar a conclusiones. Este enfoque permite que los modelos descompongan problemas complejos en pasos manejables, reflejando los procesos de resolución de problemas humanos.
Si bien el razonamiento matemático ha dominado las investigaciones recientes debido a su naturaleza verificable, la expansión de la capacitación de RL a diversos dominios permanece en gran medida inexplorada. Los trabajos de investigación anteriores sugieren que combinar contenido matemático con otros dominios verificables puede mejorar el rendimiento en amplios puntos de referencia de razonamiento. Sin embargo, la investigación sistemática sobre cómo los datos de razonamiento no matemático, como el análisis legal, las ciencias sociales o la interpretación histórica, afecta la efectividad de la capacitación de RL todavía representan una brecha de investigación significativa.
Desafíos en la diversificación de dominios de razonamiento
Investigaciones recientes han explorado métodos para diversificar conjuntos de datos de capacitación RL, Sin embargo, las preguntas sobre estrategias óptimas de mezcla de datos y la importancia relativa de varias fuentes permanecen sin respuesta. Un desafío fundamental en la aplicación de RL a tareas de razonamiento general es desarrollar modelos de recompensa verificables para dominios que carecen de soluciones deterministas. Los procesos de razonamiento específicos del dominio, ya sea basados en reglas y simbólicos en matemáticas o contextuales y heurísticos en campos como la ley y la historia, consideran diferentes enfoques cognitivos. Además de eso, los formatos de preguntas (abiertos versus la opción múltiple) demandan estrategias de razonamiento distintas, lo que sugiere que incorporar diversos dominios de razonamiento podría mejorar significativamente las amplias capacidades cognitivas de LLMS.
Nemotron-crossthink: un enfoque de dominio múltiple
Investigadores de Nvidia, la Universidad de Carnegie Mellon y la Universidad de Boston introducen Nemotron-crossthink, Representación de un marco sistemático para incorporar a los corpus múltiples en el dominio en la capacitación RL para mejorar la generalización de la tarea cruzada. La metodología sigue una tubería integral que cura diversas fuentes de datos, incluidos los datos sintéticos de Colegas comunes y parejas de respuesta de código abierto PROVENIRhumanidades, leyes y ciencias sociales. Al aplicar formatos plantados (MCQ/Open-EDENT) para restringir los espacios de respuestas, filtrar muestras para recompensas verificables e implementar recetas estratégicas de mezcla de datos, el marco permite el autoaprendizaje efectivo a través de RL en diversos dominios de razonamiento.
Resultados clave e innovaciones
Nemotron-CrossTink mejora significativamente las capacidades de razonamiento de LLM mediante la integración de datos de múltiples dominios con diferentes formatos de preguntas. Los modelos entrenados con este enfoque demuestran no solo una mayor precisión sino también estrategias de respuesta dinámica, que genera respuestas concisas para las preguntas de propósito general al tiempo que proporciona respuestas detalladas para los problemas matemáticos, optimizando los costos de inferencia mientras se mantiene la precisión específica de la tarea.
El marco aborda el desafío de las recompensas verificables en dominios no deterministas a través de la curación de datos plantado que limita la diversidad del espacio de respuesta. También proporciona un enfoque de filtrado eficiente que clasifica los datos de razonamiento de propósito general por complejidad, Mostrar que el entrenamiento con muestras más desafiantes amplifica el impacto de RL en todos los dominios. Estas innovaciones han llevado a ganancias de rendimiento sustanciales tanto en los puntos de referencia matemáticos (Math-500: +30.1%, AMC23: +27.5%) y no matemáticas (MMLU-Pro: +12.8%, GPQA-Diamond: +11.3%).
Curación de datos integral
Nemotron-CrossTink comienza con una curación de datos meticuloso de múltiples fuentes para garantizar la diversidad. El conjunto de datos de capacitación combina datos generados sintéticamente de CommonCrawl y conjuntos de datos de control de código abierto disponibles públicamente, que abarcan tanto el razonamiento de uso general como el contenido matemático. Los datos de razonamiento de uso general incluyen MMLU, razonamiento natural y pares de control de calidad sintetizados que abarcan campos de tallo, economía, ciencias sociales y humanidades, mientras que el razonamiento matemático incorpora conjuntos de datos como matemáticas y numina-matina junto con problemas generados sintéticamente.
Aplicación de plantilla y filtrado de datos
Para abordar el desafío de las recompensas verificables en dominios no matemáticos, el marco aplica plantillas específicas para estructurar formatos de respuesta-respuesta: preguntas de opción múltiple (MCQ) y preguntas abiertas. Este enfoque expone el modelo a diversos formatos de respuesta y vías de razonamiento al tiempo que limita la variabilidad del espacio de respuestas para permitir un modelado de recompensas efectivo. El filtrado riguroso elimina las muestras que son inviables para evaluar con funciones de recompensa basadas en reglas, descartando los MCQ donde las respuestas correctas no son entre las opciones y las respuestas abiertas que exceden las diez palabras.
Mezcla de datos estratégicos y aprendizaje de refuerzo
Nemotron-CrossTink emplea la optimización de políticas relativas del grupo (GRPO) para el aprendizaje de refuerzo, lo que mejora la eficiencia al estimar las líneas de base de las puntuaciones grupales en lugar de usar un modelo crítico separado. La metodología investiga el impacto de diversas fuentes de datos, tipos de preguntas y utilidad de datos a través de seis recetas de mezcla distintas. Este enfoque sistemático permite un análisis detallado de cómo los datos de razonamiento de uso general complementan el razonamiento matemático, produciendo modelos de lenguaje más adaptables y generalizables.
Contribuciones técnicas
La investigación demuestra varios avances técnicos clave en el razonamiento de dominios múltiples a través del aprendizaje de refuerzo:
- Los formatos de respuesta de pregunta templada proporcionan un modelado de recompensas más estable, con formatos de preguntas abiertas unificadas que mejoran el rendimiento en un 1,21% sobre formatos mixtos y las plantillas de respuesta de forma corta superan las de forma larga en un 1,20%.
- La mezcla estratégica de datos resulta esencial, con una precisión de razonamiento promedio de los corpus múltiples de dominio en un 1,61% en comparación con la capacitación de solo matemáticas al tiempo que reduce el uso del token en un 28%.
- Las técnicas de filtrado impulsadas por el modelo seleccionan efectivamente muestras desafiantes al eliminar las solucionables por modelos más pequeños, produciendo una ganancia de precisión adicional del 2.15% para QWEN-2.5-32B.
Estos hallazgos representan un progreso significativo en el desarrollo de LLM con capacidades de razonamiento sólidas en diversos dominios, yendo más allá del enfoque tradicional en el razonamiento matemático para abarcar el espectro completo del conocimiento humano y los patrones de inferencia.
Experimentos y resultados
Los resultados experimentales demuestran que diferentes conjuntos de datos afectan significativamente el rendimiento del modelo en los puntos de referencia de razonamiento. Numinamath produjo el promedio general más alto, superando la línea de base en un 8,30%, con una fuerza particular en las tareas matemáticas, al tiempo que generaliza bien en diversos dominios. Los datos sintéticos de respuesta-respuesta mejoraron el rendimiento en aproximadamente un 1.0%, que muestra una fuerte precisión en las tareas MMLU-Pro, Agieval y Math-500, lo que confirma que los datos de estilo de instrucción generados sintéticamente pueden generalizarse efectivamente cuando se alinean con las distribuciones de referencia.
El enfoque Nemotron-CrossTink superó constantemente al modelo base en varias estrategias de mezcla. La mezcla de razonamiento de uso general (BGPR ↑) alcanzó el promedio general más alto, excediendo el estado de cero abierto en aproximadamente un 5% en promedio y mostrando ganancias sustanciales en los puntos de referencia centrados en el razonamiento ( +12.82% en MMLU-PRO, +15.12% en Agieval). Aunque Bonly_Math funcionó un poco mejor en tareas estrictamente matemáticas, se retrasó en los puntos de referencia de razonamiento no matemáticos, lo que demuestra la versatilidad superior de BGPR ↑ a través de una fuerte transferencia de dominio cruzado.
Un análisis posterior reveló que los formatos de preguntas abiertas (Bopen ↑) arrojaron resultados más fuertes en puntos de referencia matemáticos que los formatos de opción múltiple (BMCQ ↑), lo que sugiere una alineación con la estructura inherentemente abierta de problemas matemáticos. Los datos de razonamiento matemático mostraron transferibilidad a tareas de razonamiento estructurado, mientras que los datos de propósito general demostraron ser menos efectivos en aislamiento. Este hallazgo contradictorio confirma que el rendimiento óptimo de razonamiento de uso general requiere incluir problemas matemáticos en las mezclas de capacitación.
Conclusión
Nemotron-CrossThink presenta un marco escalable que mejora la generalización de LLM a través del aprendizaje de refuerzo con corpus múltiples de dominio. Al combinar estratégicamente diversos datos de razonamiento con una relación 2: 1 de propósito general con contenido matemático, el enfoque logra una notable mejora promedio del 13.36% sobre las líneas de base. La investigación demuestra que la diversidad de datos, no solo el volumen, impulsa capacidades de razonamiento más amplias. A través del filtrado basado en la dificultad y el diseño de plantillas reflexivas, Nemotron-CrossTink establece una metodología práctica para desarrollar LLM más generalizables, eficientes y confiables que extienden el autoaprendizaje más allá del razonamiento matemático.
Mira el Papel y Página del proyecto. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.