El aprendizaje de refuerzo (RL) para modelos de idiomas grandes (LLM) se ha basado tradicionalmente en recompensas basadas en resultados, que proporcionan retroalimentación solo sobre la salida final. Esta escasez de recompensa hace que sea difícil capacitar modelos que necesiten razonamiento de varios pasos, como los empleados en la resolución y programación de problemas matemáticos. Además, la asignación de crédito se vuelve ambigua, ya que el modelo no recibe comentarios de grano fino para los pasos intermedios. Los modelos de recompensa de proceso (PRMS) intentan abordar esto ofreciendo recompensas densas por el paso, pero necesitan costosas etiquetas de proceso anotadas por el ser humano, lo que las hace inviables para RL a gran escala. Además, las funciones de recompensa estática están plagadas de excesiva optimización y piratería de recompensas, donde el modelo aprovecha el sistema de recompensas de manera imprevista, lo que eventualmente compromete el rendimiento de la generalización. Estas limitaciones restringen la eficiencia, la escalabilidad y la aplicabilidad de RL para LLM, que requieren una nueva solución que combina efectivamente recompensas densas sin altos gastos computacionales o anotaciones humanas.

Los métodos RL existentes para LLM emplean principalmente modelos de recompensa de resultados (ORMS), que ofrecen puntajes solo para la salida final. Esto da como resultado una baja eficiencia de muestra, ya que los modelos deben generar y probar secuencias completas antes de recibir retroalimentación. Algunos métodos emplean modelos de valor que estiman las recompensas futuras de acciones pasadas para contrarrestar esto. Sin embargo, estos modelos tienen una alta varianza y no manejan adecuadamente la escasez de recompensas. Los PRM ofrecen comentarios más de grano fino, pero necesitan anotaciones manuales costosas para pasos intermedios y son propensos a recompensar la piratería debido a las funciones de recompensa estática. Además, la mayoría de los métodos existentes necesitan una fase de capacitación adicional para el modelo de recompensa, que se suma al gasto computacional y los hace inviables para RL en línea escalable.

Un grupo de investigadores de la Universidad de Tsinghua, Shanghai Ai Lab, University of Illinois Urbana-Champaign, Universidad de Pekín, Universidad de Shanghai Jiaotong y Cuhk ha propuesto un marco de aprendizaje de refuerzo que elimina la necesidad de anotaciones de paso de paso explícitas que utilizan una utilización eficiente de retroalimentación densa de retroalimentación. . La principal contribución propuesta es la introducción de un modelo de recompensa de proceso implícito (PRM implícito), que produce recompensas a nivel de token independientemente de las etiquetas de resultados, eliminando así la necesidad de orientación a nivel de paso anotada por humanos. El enfoque permite una mejora continua en línea del modelo de recompensa, eliminando el problema de la sobrettimización sin permitir los ajustes de implementación de políticas dinámicas. El marco puede integrar con éxito las recompensas de procesos implícitas con las recompensas de resultados durante la estimación de la ventaja, ofreciendo eficiencia computacional y eliminando la piratería de recompensas. A diferencia de los métodos anteriores, que requieren una fase de capacitación separada para las recompensas de procesos, el nuevo enfoque inicializa el PRM directamente del modelo de política en sí, eliminando en gran medida la sobrecarga de desarrollo en gran medida. También se hace compatible con una gama de algoritmos RL, incluidos Reforce, PPO y GRPO, lo que lo hace generalizable y escalable para capacitar a los modelos de idiomas grandes (LLM).

Este sistema de aprendizaje de refuerzo proporciona recompensas de procesos implícitos de nivel de token, calculado a través de una formulación de ratio de registro entre un modelo de recompensa aprendida y un modelo de referencia. En lugar de la anotación manual, la función de recompensa se aprende de las etiquetas de resultados en bruto, que ya se obtienen para la capacitación de políticas. El sistema también incluye el aprendizaje en línea de la función de recompensa para evitar la optimización excesiva y la piratería de recompensas. Utiliza un enfoque de estimación de ventaja híbrida que combina el proceso implícito y las recompensas de resultados a través de un estimador de Monte Carlo de dejar uno. La optimización de políticas se logra mediante la optimización de políticas proximales (PPO) utilizando una función de pérdida sustituta recortada para la estabilidad. El modelo fue entrenado utilizando QWEN2.5-Math-7B-Base, un modelo optimizado para el razonamiento matemático. El sistema se basa en 150k consultas con cuatro muestras por consulta, en comparación con QWEN2.5-Math-7B-Instructo utilizando 618K anotaciones internas, lo que demuestra la efectividad del proceso de entrenamiento.

El sistema de aprendizaje de refuerzo demuestra ganancias significativas en la eficiencia de la muestra y el rendimiento del razonamiento en varios puntos de referencia. Proporciona una ganancia de 2.5 × en la eficiencia de la muestra y una ganancia del 6.9% en la resolución de problemas matemáticos en comparación con la RL basada en resultados estándar. El modelo supera a la instrucción QWEN2.5-Math-7B en los puntos de referencia matemáticos de la evaluación comparativa, con una mejor precisión en tareas de nivel de competencia como AIME y AMC. Los modelos entrenados de este proceso superan a los modelos más grandes, incluido GPT-4O, con precisión Pass@1 para tareas de razonamiento desafiantes, incluso cuando se usan solo el 10% de los datos de entrenamiento utilizados por QWEN2.5-Math-7B-Instructo. Los resultados afirman que las actualizaciones en línea al modelo de recompensa evitan la sobrettimización excesiva, mejoran la estabilidad de la capacitación y mejoran la asignación de crédito, lo que lo convierte en un método extremadamente poderoso para el aprendizaje de refuerzo en LLMS.

Este enfoque de aprendizaje de refuerzo proporciona un proceso de capacitación de LLM eficiente y escalable con recompensas de procesos implícitos densos. Esto elimina las anotaciones explícitas a nivel de paso y minimiza los costos de capacitación al tiempo que mejora la eficiencia de la muestra, la estabilidad y el rendimiento. El proceso combina el modelado de recompensas en línea y la retroalimentación a nivel de token armoniosamente, resolviendo problemas de larga data de escasez de recompensas y asignación de crédito en RL para LLM. Estas mejoras optimizan la capacidad de razonamiento en los modelos de IA y las hacen adecuadas para aplicaciones de resolución de problemas en matemáticas y programación. Esta investigación es una contribución sustancial a la capacitación de LLM basada en RL, allanando el camino para enfoques de entrenamiento de IA más eficientes, escalables y de alto rendimiento.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional’ (Promocionado)


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.

Por automata