Los modelos de idiomas grandes (LLM) se benefician significativamente de las técnicas de aprendizaje de refuerzo, que permiten mejoras iterativas al aprender de las recompensas. Sin embargo, capacitar a estos modelos sigue siendo desafiante, ya que a menudo requieren conjuntos de datos extensos y supervisión humana para mejorar sus capacidades. El desarrollo de métodos que permitan a los LLM superar autónomos sin aportes humanos adicionales o modificaciones arquitectónicas a gran escala se ha convertido en un enfoque importante en la investigación de IA.
El desafío clave en la capacitación de LLM es garantizar que el proceso de aprendizaje sea eficiente y estructurado. El proceso de capacitación puede detenerse cuando los modelos encuentran problemas más allá de sus capacidades, lo que lleva a un bajo rendimiento. Las técnicas de aprendizaje de refuerzo tradicional dependen de conjuntos de datos bien curados o comentarios humanos para crear vías de aprendizaje efectivas, pero este enfoque es intensivo en recursos. Además, los LLM luchan para mejorar sistemáticamente sin un gradiente de dificultad estructurado, lo que dificulta cerrar la brecha entre las tareas de razonamiento básico y la resolución de problemas más compleja.
Los enfoques existentes para la capacitación LLM implican principalmente ajustes finos supervisados, el aprendizaje de refuerzo de la retroalimentación humana (RLHF) y el aprendizaje curricular. El ajuste superior supervisado requiere conjuntos de datos etiquetados manualmente, lo que puede conducir a un sobreajuste y una generalización limitada. RLHF introduce una capa de supervisión humana, donde los modelos se refinan en función de las evaluaciones humanas, pero este método es costoso y no escala de manera eficiente. El aprendizaje curricular, que aumenta gradualmente la dificultad de la tarea, ha demostrado ser prometedor, pero las implementaciones actuales aún dependen de conjuntos de datos predefinidos en lugar de permitir que los modelos generen sus trayectorias de aprendizaje. Estas limitaciones destacan la necesidad de un marco de aprendizaje autónomo que permita a LLM mejorar sus habilidades de resolución de problemas de forma independiente.
Investigadores de TUFA Labs introdujeron Escalera (aprendizaje a través de la recursión de ejemplo de dificultad autónoma) para superar estas limitaciones. Este marco permite a los LLM a superarlo a la generación recursiva y resolviendo variantes progresivamente más simples de problemas complejos. A diferencia de los métodos anteriores que dependen de la intervención humana o los conjuntos de datos seleccionados, la escalera aprovecha las capacidades del modelo para crear un gradiente de dificultad natural, lo que permite el autoaprendizaje estructurado. El equipo de investigación desarrolló y probó una escalera en tareas de integración matemática, demostrando su efectividad para mejorar el rendimiento del modelo. Al aplicar una escalera, los investigadores permitieron que un modelo de 3 billones de parámetros LLAMA 3.2 mejore su precisión en los problemas de integración de pregrado del 1% al 82%, un salto sin precedentes en las capacidades de razonamiento matemático. Además, el enfoque se extendió a modelos más grandes, como Qwen2.5 7b Deepseek-R1 destilado, logrando una precisión del 73% en el examen de calificación de la abeja de integración del MIT, modelos que superan mucho como GPT-4O, que ganaron solo el 42%, y el rendimiento humano típico en el rango del 15-30%.
Ladder sigue una metodología estructurada que permite que los LLM arrancen su aprendizaje al desglosar sistemáticamente problemas complejos. El proceso implica tres componentes principales: generación de variantes, verificación de soluciones y aprendizaje de refuerzo. El paso de generación variante asegura que el modelo produce versiones progresivamente más fáciles de un problema dado, formando un gradiente de dificultad estructurado. El paso de verificación de la solución emplea métodos de integración numérica para evaluar la corrección de las soluciones generadas, proporcionando retroalimentación inmediata sin intervención humana. Finalmente, el componente de aprendizaje de refuerzo utiliza la optimización de políticas relativas del grupo (GRPO) para entrenar el modelo de manera eficiente. Este protocolo permite al modelo aprender de forma incremental aprovechando las soluciones verificadas, lo que le permite refinar sus estrategias de resolución de problemas sistemáticamente. Los investigadores extendieron este enfoque con el aprendizaje de refuerzo de tiempo de prueba (TTRL), que genera dinámicamente variantes de problemas durante la inferencia y aplica el aprendizaje de refuerzo para refinar soluciones en tiempo real. Cuando se aplica al examen de calificación de la abeja de integración del MIT, TTRL aumentó la precisión del modelo del 73% al 90%, superando el modelo O1 de OpenAI.
Cuando se prueba en un conjunto de datos de 110 problemas de integración de nivel de pregrado, un modelo LLAMA 3.2 3B entrenado con escalera alcanzó una precisión del 82%, en comparación con la precisión del 2% al usar muestreo Pass@10. El enfoque también demostró escalabilidad, ya que aumentar el número de variantes generadas condujo a mejoras continuas de rendimiento. En contraste, el aprendizaje de refuerzo sin variantes no logró lograr ganancias significativas, reforzando la importancia de la descomposición de problemas estructurados. Los investigadores observaron que los modelos capacitados en escalera podrían resolver integrales que requieren técnicas avanzadas que antes estaban fuera de alcance. Aplicando la metodología al examen de calificación de la abeja de integración del MIT, un modelo QWEN2.5 7B Deepseek-R1 7b entrenado con modelos más grandes superó a los modelos más grandes que no sufrieron capacitación recursiva, mostrando la efectividad de la superación personal estructurada en el razonamiento matemático.
Las conclusiones clave de la investigación sobre la escalera incluyen:
- Permite que los LLM estén a prueba de auto-generación recursivamente generando y resolviendo variantes más simples de problemas complejos.
- El modelo LLAMA 3.2 3B mejoró del 1% al 82% en las tareas de integración de pregrado, lo que demuestra la efectividad del autoaprendizaje estructurado.
- QWEN2.5 7B Deepseek-R1 Destilled alcanzó una precisión del 73%, superó a GPT-4O (42%) y excedió el rendimiento humano (15-30%).
- Una precisión aumentada de 73% a 90%, superando el modelo O1 de OpenAI.
- La escalera no requiere conjuntos de datos externos o intervención humana, lo que lo convierte en una solución rentable y escalable para el entrenamiento de LLM.
- Los modelos entrenados con escalera demostraron capacidades superiores de resolución de problemas en comparación con el aprendizaje de refuerzo sin gradientes de dificultad estructurados.
- El marco proporciona una forma estructurada para que los modelos de IA refinen sus habilidades de razonamiento sin supervisión externa.
- La metodología puede extenderse a la programación competitiva, la prueba del teorema y la resolución de problemas basados en agentes.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.