Los modelos de idiomas grandes (LLM) han hecho avances significativos en su fase posterior a la capacitación, como Deepseek-R1, Kimi-K1.5 y OpenAI-O1, que muestran impresionantes capacidades de razonamiento. Si bien Deepseek-R1 proporciona pesos de modelos de código abierto, retiene el código de capacitación y los detalles del conjunto de datos, planteando preguntas sobre la escala de capacidades de razonamiento a modelos más pequeños, estructuras de datos de capacitación óptimas y metodologías de replicación confiables. Los conjuntos de datos de matemáticas tradicionales como GSM8K y Omini-Math presentan niveles de dificultad inconsistentes con diferentes profundidades lógicas, lo que complica la experimentación controlada. La necesidad de conjuntos de datos específicos con complejidad controlable se ha vuelto crítica para aislar variables y estudiar la aparición de capacidades de razonamiento en LLM.
Las capacidades de razonamiento de LLMS se han avanzado a través de diversas técnicas, con el razonamiento de la cadena de pensamiento (cot) que juega un papel crucial en la descomposición de problemas complejos en pasos manejables. Monte Carlo Tree Search (MCTS), inicialmente exitoso en Alphago, se ha adaptado para guiar la planificación basada en modelos al equilibrar la exploración y la explotación a través de la búsqueda basada en árboles y el muestreo aleatorio. Además, las estrategias posteriores a la capacitación para mejorar las capacidades de razonamiento incluyen ajuste adicional o aprendizaje de refuerzo (RL) en conjuntos de datos especializados. Métodos como la optimización de preferencias directas (DPO), la optimización de políticas proximales (PPO), la optimización de políticas relativas del grupo (GRPO) y la refuerza ++ están mostrando prometedor, formando una frontera para avanzar en el razonamiento del modelo junto con los métodos de escala de tiempo de prueba.
Investigadores de Microsoft Research Asia, Ubiquant e Independent han propuesto Logic-RL, un marco RL basado en reglas que adquiere patrones de razonamiento similares a Deepseek-R1 a través de la capacitación sobre rompecabezas lógicos. Adopta el algoritmo de refuerzo ++ y los diseños de recompensas de Deepseek-R1 para post-entrenamiento. A medida que avanza la capacitación, el modelo asigna naturalmente más pasos computacionales al razonamiento, expandiéndose de generar cientos a miles de tokens, lo que permite una exploración y refinamiento más profundas de los procesos de pensamiento. Utilizando solo 5K generados por rompecabezas lógicos, su modelo 7B muestra la generalización entre dominios, mejorando en un 125% en AIME y 38% en AMC contra el modelo base. Esto sugiere que el razonamiento entrenado por RL desarrolla patrones abstractos de resolución de problemas en lugar de una coincidencia específica del dominio.
Los investigadores enfrentan desafíos con la tendencia de Qwen2.5-Math-7b a generar bloques de código de Python que entran en conflicto con los requisitos de formato. Las pruebas tanto QWEN2.5-7B-Base como Qwen2.5-7b-Instructo revelan métricas de entrenamiento casi idénticas durante el entrenamiento de RL, incluida la precisión de la validación, las curvas de crecimiento de la longitud de respuesta y las curvas de recompensa. La implementación muestra mejoras dramáticas en las capacidades de razonamiento, con una longitud de salida que aumenta de un promedio inicial de 500 tokens a aproximadamente 2000 tokens después de solo 1000 pasos de entrenamiento RL. Esto permite la aparición de comportamientos más complejos, como la reflexión y la exploración de soluciones alternativas, y estos comportamientos mejoran significativamente la capacidad del modelo para manejar tareas complejas y están estrechamente alineados con los resultados informados en Deepseek-R1.
Los resultados demuestran que si bien PPO logra ventajas significativas en la precisión y la recompensa, fue 138% más lento que reforzar ++ en la velocidad de entrenamiento. Reforce ++ muestra una estabilidad superior, ganancias de rendimiento y eficiencia de entrenamiento en comparación con GRPO, lo que lo supera en casi todas las métricas. GRPO exhibe el rendimiento más débil entre los tres algoritmos RL evaluados. La capacidad de generalización súper ood (desactivada) del modelo demuestra excepcionalmente fuerte, lo que alcanza una mejora general del 125% en el conjunto de datos AIME y el 38% en el conjunto de datos AMC. Esta mejora sincrónica indica que el proceso RL mejora el rendimiento de distribución y facilita la aparición de estrategias de razonamiento sólidas y transferibles.
Este estudio muestra el potencial significativo de la lógica-RL en el desarrollo de habilidades de razonamiento complejos en modelos de lenguaje a través de un marco RL basado en reglas. Sin embargo, es importante reconocer que los hallazgos se basan en un conjunto de datos lógicos de escala relativamente pequeña, que puede limitar su aplicabilidad. La generalización de estos resultados a escenarios matemáticos o de codificación del mundo real a gran escala sigue siendo una pregunta abierta que requiere una mayor investigación. La investigación futura debería centrarse en extender este enfoque a conjuntos de datos más diversos y complejos para validar a fondo su efectividad y robustez en diferentes dominios y tipos de problemas. Al mantener este trabajo como un proyecto de investigación abierta, los investigadores tienen como objetivo beneficiar a la comunidad científica más amplia.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
