Los avances recientes en los modelos de lenguaje grande (LLMS) centrados en el razonamiento han ampliado el alcance del aprendizaje de refuerzo (RL) más allá de las aplicaciones estrechas y específicas de la tarea, lo que permite una generalización más amplia y capacidades de razonamiento. Sin embargo, este cambio introduce desafíos significativos, particularmente en la escala del cálculo de capacitación requerido para aprender de la experiencia. A diferencia del aprendizaje de imitación a través de la capacitación y el ajuste fino, RL exige un enfoque más intensivo computacionalmente. Un tema central es la disminución de la entropía de políticas, que afecta el equilibrio entre explotar estrategias conocidas y explorar otras nuevas. Esta compensación de exploración de explotación es fundamental en RL, y el control de la entropía de la política se ha vuelto crítico para mantener una exploración efectiva durante la capacitación.
Los esfuerzos existentes abordan la compensación de exploración-explotación en RL utilizando la entropía de la política. La entropía máxima RL introduce un término de regularización en la función de recompensa, promoviendo la incertidumbre en la selección de acción y alentando la exploración más amplia. Si bien esta técnica ha sido ampliamente adoptada en los algoritmos RL convencionales, su aplicación a LLMS permanece debatida. Además, no se explora la previsibilidad en RL para LLMS. Mientras que las leyes de escala neural guían el desarrollo de LLM, los marcos predictivos similares para la capacitación RL siguen siendo limitados. Los métodos RL existentes para LLM con recompensas verificables muestran prometedor en las mejoras de razonamiento, pero carecen de una comprensión profunda de sus mecanismos centrales.
Investigadores del Laboratorio de AI de Shanghai, la Universidad de Tsinghua, UIUC, la Universidad de Pekín, la Universidad de Nanjing y el CUHK proporcionan un enfoque para abordar el colapso de la entropía de políticas en RL para LLM centrados en el razonamiento. Establecieron una ecuación de transformación, r = −a exp H + B, donde H es entropía, R es rendimiento aguas abajo y A y B son coeficientes ajustados. Esta ley empírica sugiere fuertemente que el desempeño de la política se comercializa a partir de la entropía de la política, así que los cuellos de botella por su agotamiento. Los investigadores investigan la dinámica de entropía, y su derivación destaca que el cambio en la entropía de la política está impulsado por la covarianza entre la probabilidad de acción y el cambio en los logits. También propusieron dos técnicas, a saber, Clip-Cov y KL-Cov, que recortan y aplican una penalización de KL a los tokens con altas covarianzas, respectivamente.
Para investigar y validar el fenómeno de colapso de entropía en LLMS ajustados por RL, los investigadores aplicaron RL a LLM en tareas verificables, como las matemáticas y la codificación, utilizando una configuración de generación autorregresiva donde los modelos producen secuencias de token basadas en indicaciones de entrada. El estudio involucra 11 modelos de código abierto ampliamente adoptados que abarcan cuatro familias: Qwen2.5, Mistral, Llama y Deepseek, con parámetros que van de 0.5B a 32 B. Las evaluaciones se realizan en ocho puntos de referencia público, incluidos Math500, AIME 2024, AMC y EURUS-2-RL-Code. Además, RL Training sigue el marco de Verl en una configuración de disparo cero, utilizando algoritmos como GRPO, Reforce ++ y Prime para optimizar el rendimiento de las políticas mientras observa la dinámica de la entropía.
Las técnicas propuestas de clip-Cov y KL-CoV se evaluaron en los modelos QWEN2.5 utilizando el conjunto de datos Dapomath para tareas de matemáticas. Estos métodos logran ganancias de rendimiento no trivial en todos los puntos de referencia. En comparación con la línea de base de GRPO, estos métodos mejoran el rendimiento en un 2.0% en promedio para el modelo 7B y en un 6,4% para el modelo 32B. Por ejemplo, cuando la entropía de la línea de base alcanza una meseta, el método KL-CoV aún mantiene un nivel de entropía en 10 veces más alto. Los métodos pueden mantener un mayor nivel de entropía durante todo el entrenamiento. Además, los métodos producen ganancias más sustanciales en el modelo QWEN2.5-32B más grande, con mejoras de 15.0% y 14.6% en comparación con GRPO en los puntos de referencia más desafiantes, AIME24 y AIME25, respectivamente.
En conclusión, los investigadores han superado el desafío del colapso de la entropía de políticas en RL para los LLM centrados en el razonamiento. Los hallazgos destacan una compensación entre la mejora del rendimiento y la exploración disminuida, lo que finalmente limita más ganancias. A través del análisis teórico y la validación empírica, los investigadores identifican la dinámica de la entropía como un cuello de botella clave y proponen dos estrategias efectivas de regularización: Clip-Cov y KL-Cov para administrar tokens de alta covarianza y mantener la exploración. Como RL emerge como un eje crucial para escalar más allá de la capacitación previa, abordar el colapso de la entropía se vuelve esencial. Este trabajo proporciona información fundamental sobre el papel de la entropía, guiando los esfuerzos futuros para escalar RL hacia modelos de lenguaje más inteligentes y capaces.
Mira el Papel y Página de Github . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
