ReasonFlux-PRM: un modelo de recompensa de trayectoria que mejora el razonamiento de la cadena de pensamiento en LLMS

Comprender el papel de la cadena de pensamiento en LLMS

Los modelos de lenguaje grandes se utilizan cada vez más para resolver tareas complejas, como las matemáticas y el razonamiento científico a través de enfoques estructurados de la cadena de pensamiento. Estos modelos no solo saltan a las respuestas, sino que a través de pasos intermedios que simulan procesos de pensamiento lógico. Esta técnica permite una mejor precisión de razonamiento y un rastreo de errores más claro. A medida que los modelos se vuelven más sofisticados, se ha vuelto esencial evaluar no solo las respuestas finales, sino también los pasos de razonamiento que los llevan.

Limitaciones de las PRM tradicionales en la evaluación de razonamiento

Un problema apremiante es que la mayoría de los modelos de recompensa actuales solo evalúan las respuestas finales, ignorando cómo se llegaron a esas conclusiones. Sin embargo, los modelos fronterizos como Deepseek-R1 ahora emiten rutas de razonamiento extensas antes de ofrecer respuestas finales. Estos pares de respuesta de trayectoria se están reutilizando para entrenar modelos más pequeños. El problema es que los modelos actuales de recompensa de proceso (PRMS) no están creados para evaluar estas trayectorias completas. Este desajuste conduce a una supervisión poco confiable, lo que puede degradar el rendimiento de modelos más pequeños entrenados en datos de respuesta de trayectoria.

Desafíos en el manejo de cadenas de razonamiento desorganizadas

Los PRM tradicionales se calibran principalmente para salidas estructuradas y limpias en lugar de las largas y a veces desorganizadas cadenas de razonamiento generadas por LLM avanzadas. Incluso los PRM avanzados, como Qwen2.5-Math-PRM-72B, muestran una capacidad limitada para distinguir entre el razonamiento intermedio de alta y baja calidad. Cuando se aplica a las salidas de respuesta de trayectoria de Géminis o Deepseek-R1, estos modelos a menudo producen puntajes de recompensa superpuestos, lo que indica una discriminación débil. Su sensibilidad limitada conduce a una mala selección de datos para el ajuste fino posterior, y los experimentos confirman que los modelos entrenados en datos seleccionados por PRM funcionan peor que los entrenados en conjuntos de datos curados por humanos.

Introducción de razonflux-prm para supervisión a nivel de trayectoria

Investigadores de la Universidad de Illinois Urbana-Champaign (UIUC), la Universidad de Princeton, la Universidad de Cornell y la semilla de bytedance introdujeron Reasonflux-Prm. La investigación introdujo ReasonFlux-PRM como un modelo consciente de la trayectoria que evalúa tanto los pasos de razonamiento intermedio como las respuestas finales. Integra la puntuación de nivel de paso y a nivel de trayectoria, lo que permite una comprensión más matizada de la calidad del razonamiento. ReasonFlux-PRM está capacitado en un conjunto de datos de 10,000 muestras de problemas de matemáticas y ciencias cuidadosamente seleccionados diseñados explícitamente para reflejar los formatos de respuesta de trayectoria del mundo real.

Marco técnico de razonflux-prm

Técnicamente, ReasonFlux-PRM funciona puntuando cada paso intermedio en una trayectoria con respecto a su contribución a la respuesta final. Utiliza una función de recompensa de referencia que considera el mensaje, los pasos de razonamiento previo y la salida final para asignar puntajes de nivel de paso. Estos se agregan para producir una recompensa de trayectoria total. El modelo admite múltiples aplicaciones, incluido el filtrado fuera de línea de datos de capacitación de alta calidad, una densa provisión de recompensas durante el aprendizaje de refuerzo utilizando la optimización de políticas basada en GRPO y la mejor selección de respuesta de tiempo de prueba para mejorar la calidad de inferencia. Estas capacidades hacen que ReasonFlux-PRM sea más flexible e integral que las PRM anteriores.

Resultados empíricos en puntos de referencia de razonamiento

En las evaluaciones de rendimiento en tareas como AIME, MATH500 y GPQA-Diamond, ReasonFlux-PRM-7B superó a QWEN2.5-MATH-PRM-72B y datos curados por humanos en varias métricas clave. Específicamente, logró una ganancia de precisión del 12.1% en el ajuste supervisado de fino, una mejora del 4.5% durante el aprendizaje de refuerzo y un aumento del 6.3% durante la escala del tiempo de prueba. Estas ganancias son particularmente considerables dado que ReasonFlux-PRM es más pequeño en el tamaño del modelo. La Tabla 1 muestra que el modelo QWEN2.5-14B-Instructo, cuando está entrenado en los datos seleccionados por RauleFLUX-PRM, alcanzó niveles de rendimiento cercanos o superiores a las líneas de base curadas por humanos. En contraste, otros PRM dieron como resultado caídas significativas de hasta el 26,6% en ciertos puntos de referencia.

Impacto y dirección futura de razonflux-prm

Esta investigación aborda una limitación crucial en la capacitación y evaluación de modelos de razonamiento modernos. Al habilitar la supervisión sobre las trayectorias de pensamiento y las respuestas finales, ReasonFlux-PRM mejora la calidad de los datos de capacitación y la confiabilidad de las respuestas del modelo. Establece una nueva dirección para evaluar y mejorar sistemáticamente los procesos de razonamiento en modelos grandes.

Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

ReasonFlux-PRM: un modelo de recompensa de trayectoria que mejora el razonamiento de la cadena de pensamiento en LLMS

ByEquipo de 7 minutos

Comprender el papel de la cadena de pensamiento en LLMS

Limitaciones de las PRM tradicionales en la evaluación de razonamiento

Desafíos en el manejo de cadenas de razonamiento desorganizadas

Introducción de razonflux-prm para supervisión a nivel de trayectoria

Marco técnico de razonflux-prm

Resultados empíricos en puntos de referencia de razonamiento

Impacto y dirección futura de razonflux-prm

By Equipo de 7 minutos

Related Post

Cómo diseñar un tiempo de ejecución de agente de estilo OpenHarness con herramientas, memoria, permisos, habilidades y coordinación de múltiples agentes

¿Su primera tarea como ingeniero de datos en una nueva empresa? Haga que la canalización ETL sea comprobable

Las ventanas de contexto no son memoria: lo que los desarrolladores de agentes de IA deben comprender

You missed

El ingrediente del helado permite a los constructores imprimir paredes con tierra

Así repartió la publicidad institucional el Gobierno en el 2025

Los compradores de propiedades de lujo acuden en masa a España en busca de refugio ante la guerra y la agitación: Baleares ocupa el primer lugar

Exclusiva: “Shahid Kapoor debería dirigir una película” – Kriti Sanon