Los LLM han demostrado fuertes capacidades de razonamiento en dominios como las matemáticas y la codificación, con modelos como ChatGPT, Claude y Gemini ganando atención generalizada. La liberación de GPT -4 ha intensificado aún más el interés en mejorar las habilidades de razonamiento a través de técnicas de inferencia mejoradas. Un desafío clave en esta área es permitir que LLMS detecte y corrija los errores en sus salidas, un proceso conocido como autocorrección. Si bien los modelos pueden refinar las respuestas utilizando señales externas de recompensa de verdad en tierra, este enfoque introduce una sobrecarga computacional, lo que requiere ejecutar múltiples modelos durante la inferencia. Los estudios han demostrado que la precisión aún puede mejorar incluso cuando la retroalimentación de recompensas se deriva de los modelos proxy. Sin embargo, sin orientación externa, los LLM actuales luchan para autocorregarse basándose únicamente en el razonamiento intrínseco. Los esfuerzos recientes exploran el uso de LLM como evaluadores, donde los modelos generan señales de recompensa a través de mecanismos de seguimiento de instrucciones en lugar de funciones de recompensa previamente capacitadas.
La investigación relacionada sobre la alineación de autocuración ha investigado métodos para integrar la generación y evaluación de respuesta dentro de un solo LLM. Los enfoques de ajuste fino iterativo permiten que los modelos etiqueten sus salidas, proporcionando señales de aprendizaje que impulsan la superación personal. Los estudios de autocorrección han demostrado que, si bien la capacitación asistida por maestros mejora la reflexión en tareas de conversación, la autocorrección intrínseca para el razonamiento sigue siendo poco confiable sin una supervisión adicional. La mayoría del trabajo previo depende de los modelos de recompensa externos para determinar cuándo se deben hacer correcciones, lo que lleva a mayores costos de inferencia. El aprendizaje de refuerzo basado en reglas también se ha explorado como una alternativa, con avances recientes que muestran que ciertos modelos previamente capacitados exhiben comportamientos de autocorrección. Sin embargo, replicar estos resultados en diferentes arquitecturas sigue siendo un desafío, ya que las mejoras de rendimiento a menudo están vinculadas a datos de capacitación patentados y un diseño de modelo especializado.
Investigadores de la Universidad de Illinois Urbana-Champaign y la Universidad de Maryland, College Park, exploran el razonamiento autosuficiente en LLMS, lo que les permite generar pasos de razonamiento, evaluar su corrección y refinar las respuestas sin comentarios externos. Su marco de dos etapas primero utiliza un muestreo de rechazo secuencial para construir trayectorias largas de cadena de pensamiento (COT) que incrustan los comportamientos de autocorrección y autocorrección. El ajuste de estos datos ayuda a los modelos a aprender estos patrones, que mejoran aún más utilizando el aprendizaje de refuerzo con señales basadas en reglas. Los experimentos con LLAMA-3 y QWEN-2.5 muestran que este enfoque mejora la autocorrección y coincide con el rendimiento de los modelos que dependen de las recompensas externas.
El razonamiento de autocontrol en los modelos de idiomas se enmarca como un proceso de decisión de Markov (MDP) múltiple. El modelo genera una respuesta inicial y evalúa su respuesta. Si se considera correcto, se detiene; De lo contrario, refina la respuesta iterativamente. Este enfoque sigue un marco de capacitación en dos etapas: instrucción de auto-recompensa ajustada (IFT) y RL. La etapa IFT implica un muestreo de rechazo secuencial para recolectar trayectorias de razonamiento, mientras que RL optimiza la evaluación de corrección utilizando el entrenamiento regularizado de KL. A diferencia del RLHF tradicional, este método emplea a Oracle Rewards para evitar la piratería de recompensas. Los experimentos demuestran su efectividad para mejorar la precisión del razonamiento matemático a través de procesos estructurados de autocorrección y verificación.
El estudio evalúa modelos de razonamiento matemático utilizando conjuntos de datos como Math500, Olympiadbench y Minerva Math, evaluando el rendimiento a través de métricas como la precisión inicial y final, las mejoras de autocorrección y la precisión del modelo de recompensa. Los métodos de referencia como Star/Raft y la autocorrección intrínseca muestran una efectividad limitada, que a menudo conducen a modificaciones innecesarias y caídas de precisión. Por el contrario, los modelos de razonamiento auto-recompensa mejoran constantemente la precisión y la eficiencia de corrección al tiempo que minimizan los cambios incorrectos. El ajuste fino en las correcciones autogeneradas mejora significativamente la capacidad del modelo para refinar errores sin corrección excesiva. Este enfoque supera a los métodos tradicionales integrando señales de auto-recompensa, lo que lleva a capacidades de razonamiento matemático más confiable.
En conclusión, el estudio introduce un marco de razonamiento autosuficiente para LLM, mejorando la autocorrección y la eficiencia computacional. Al integrar el aprendizaje de la IFT y el refuerzo de autocromitación, el modelo detecta y refina errores utilizando intentos pasados y señales de recompensa internas. Los experimentos con Llama-3 y Qwen-2.5 muestran un rendimiento superior sobre la autocorrección intrínseca. Las mejoras futuras incluyen abordar los problemas de precisión del modelo de recompensa, mejorar el aprendizaje de refuerzo en etapas de capacitación posteriores y explorar métodos RL de múltiples vueltas. Un enfoque de dos etapas: muestreo de rechazo secuencial para patrones de razonamiento y aprendizaje de refuerzo con señales basadas en reglas, permite la corrección paso a paso sin retroalimentación externa, ofreciendo una solución escalable y eficiente para el razonamiento matemático.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.