Los modelos de idiomas grandes (LLM) han demostrado competencia en la resolución de problemas complejos en matemáticas, investigación científica e ingeniería de software. La impulso de la cadena de pensamiento (COT) es fundamental para guiar modelos a través de pasos de razonamiento intermedio antes de llegar a conclusiones. El aprendizaje de refuerzo (RL) es otro componente esencial que permite un razonamiento estructurado, lo que permite que los modelos reconozcan y corrijan los errores de manera eficiente. A pesar de estos avances, el desafío permanece en extender la longitud de la cuna mientras se mantiene la precisión, particularmente en dominios especializados donde el razonamiento estructurado es crítico.
Un tema clave para mejorar las habilidades de razonamiento en LLMS radica en generar cadenas de pensamiento largas y estructuradas. Los modelos existentes luchan con tareas de alta complejidad que requieren razonamiento iterativo, como la resolución de problemas científicos a nivel de doctorado y las matemáticas competitivas. Simplemente escalar el tamaño del modelo y los datos de capacitación no garantiza las capacidades de cuna mejoradas. Además, la capacitación basada en RL exige una conformación precisa de la recompensa, ya que los mecanismos de recompensa inadecuados pueden dar lugar a comportamientos de aprendizaje contraproducentes. La investigación tiene como objetivo identificar los factores fundamentales que influyen en la emergencia de COT y diseñar estrategias de capacitación óptimas para estabilizar y mejorar el razonamiento de la cadena larga.
Anteriormente, los investigadores han empleado el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo para mejorar el razonamiento de COT en LLM. SFT se usa comúnmente para inicializar modelos con ejemplos de razonamiento estructurados, mientras que RL se aplica a ajustar y extender las capacidades de razonamiento. Sin embargo, los enfoques tradicionales de RL carecen de estabilidad al aumentar la longitud de la cuna, lo que a menudo conduce a una calidad de razonamiento inconsistente. Las señales de recompensa verificables, como la precisión de la verdad en tierra, son críticas para evitar que los modelos participen en la piratería de recompensas, donde el modelo aprende a optimizar las recompensas sin mejorar genuinamente el rendimiento del razonamiento. A pesar de estos esfuerzos, las metodologías de entrenamiento actuales carecen de un enfoque sistemático para escalar y estabilizar de manera efectiva las cunas largas.
Investigadores de la Universidad Carnegie Mellon e IN.AI introdujeron un marco integral para analizar y optimizar el razonamiento largo de COT en LLMS. Su enfoque se centró en determinar la mecánica subyacente del razonamiento de cadena larga, experimentando con varias metodologías de entrenamiento para evaluar su impacto. El equipo probó sistemáticamente las técnicas SFT y RL, enfatizando la importancia de la configuración de recompensa estructurada. Se desarrolló una nueva recompensa de escala de longitud de coseno con una penalización de repetición para alentar a los modelos a refinar sus estrategias de razonamiento, como la ramificación y el retroceso, lo que lleva a procesos de resolución de problemas más efectivos. Además, los investigadores exploraron la incorporación de soluciones extraídas en la web como señales de recompensa verificables para mejorar el proceso de aprendizaje, particularmente para tareas fuera de distribución (OOD) como la resolución de problemas STEM.
La metodología de entrenamiento implicó una amplia experimentación con diferentes modelos base, incluidos LLAMA-3.1-8B y QWEN2.5-7B-MATH, cada uno de los cuales representa modelos de uso general y especializados en matemáticas, respectivamente. Los investigadores utilizaron un conjunto de datos de 7.500 indicaciones de muestra de capacitación de matemáticas, asegurando el acceso a soluciones verificables de verdad en tierra. La capacitación inicial con SFT proporcionó la base para el desarrollo largo de la cuna, seguida de la optimización de RL. Se empleó un verificador basado en reglas para comparar las respuestas generadas con las respuestas correctas, asegurando la estabilidad en el proceso de aprendizaje. El equipo introdujo un mecanismo de penalización de repetición para refinar la configuración de la recompensa aún más, desanimando a los modelos de producir rutas de razonamiento redundantes al tiempo que incentiva la resolución eficiente de problemas. El equipo también analizó los datos extraídos de los corpus web, evaluando el potencial de las señales de supervisión ruidosas pero diversas para refinar la escala de longitud de cuna.
Los resultados de la investigación revelaron varias ideas críticas sobre el razonamiento largo de la cuna. Los modelos entrenados con Cot SFT largo lograron consistentemente una precisión superior que los inicializados con Cot SFT corto. En el punto de referencia MATH-500, los modelos de cot SFT largos vieron una mejora significativa, con una precisión superior al 70%, mientras que los modelos COT cortos se estancaron por debajo del 55%. El ajuste fino de RL mejoró aún más los modelos de cuna largas, proporcionando una ganancia adicional de precisión absoluta del 3%. La introducción de la recompensa de escala de longitud del coseno demostró ser efectiva para estabilizar las trayectorias de razonamiento, evitando el crecimiento excesivo o no estructurado de la cuna. Además, los modelos que incorporan soluciones filtradas extraídas en la web demostraron mejores capacidades de generalización, particularmente en puntos de referencia OOD como AIME 2024 y TheoremQA, donde se registraron ganancias de precisión del 15-50%. La investigación también confirmó que las habilidades de razonamiento central, como la validación y la corrección de errores, están inherentemente presentes en los modelos base. Aún así, es necesaria una capacitación RL efectiva para reforzar estas habilidades de manera eficiente.
El estudio avanza significativamente para comprender y optimizar el razonamiento largo de COT en LLM. Los investigadores identificaron con éxito factores de capacitación clave que mejoran el razonamiento estructurado, enfatizando la importancia de las señales de recompensa verificables supervisadas y las técnicas de aprendizaje de refuerzo cuidadosamente diseñadas. Los hallazgos resaltan el potencial para futuras investigaciones en la refinación de metodologías RL, optimizan los mecanismos de modificación de recompensas y aprovechan diversas fuentes de datos para mejorar las capacidades de razonamiento del modelo. Las contribuciones del estudio ofrecen ideas valiosas para el desarrollo futuro de modelos de IA con habilidades de razonamiento robustas, interpretables y escalables.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.