Comprender el papel de la cadena de pensamiento en LLMS
Los modelos de lenguaje grandes se utilizan cada vez más para resolver tareas complejas, como las matemáticas y el razonamiento científico a través de enfoques estructurados de la cadena de pensamiento. Estos modelos no solo saltan a las respuestas, sino que a través de pasos intermedios que simulan procesos de pensamiento lógico. Esta técnica permite una mejor precisión de razonamiento y un rastreo de errores más claro. A medida que los modelos se vuelven más sofisticados, se ha vuelto esencial evaluar no solo las respuestas finales, sino también los pasos de razonamiento que los llevan.
Limitaciones de las PRM tradicionales en la evaluación de razonamiento
Un problema apremiante es que la mayoría de los modelos de recompensa actuales solo evalúan las respuestas finales, ignorando cómo se llegaron a esas conclusiones. Sin embargo, los modelos fronterizos como Deepseek-R1 ahora emiten rutas de razonamiento extensas antes de ofrecer respuestas finales. Estos pares de respuesta de trayectoria se están reutilizando para entrenar modelos más pequeños. El problema es que los modelos actuales de recompensa de proceso (PRMS) no están creados para evaluar estas trayectorias completas. Este desajuste conduce a una supervisión poco confiable, lo que puede degradar el rendimiento de modelos más pequeños entrenados en datos de respuesta de trayectoria.
Desafíos en el manejo de cadenas de razonamiento desorganizadas
Los PRM tradicionales se calibran principalmente para salidas estructuradas y limpias en lugar de las largas y a veces desorganizadas cadenas de razonamiento generadas por LLM avanzadas. Incluso los PRM avanzados, como Qwen2.5-Math-PRM-72B, muestran una capacidad limitada para distinguir entre el razonamiento intermedio de alta y baja calidad. Cuando se aplica a las salidas de respuesta de trayectoria de Géminis o Deepseek-R1, estos modelos a menudo producen puntajes de recompensa superpuestos, lo que indica una discriminación débil. Su sensibilidad limitada conduce a una mala selección de datos para el ajuste fino posterior, y los experimentos confirman que los modelos entrenados en datos seleccionados por PRM funcionan peor que los entrenados en conjuntos de datos curados por humanos.
Introducción de razonflux-prm para supervisión a nivel de trayectoria
Investigadores de la Universidad de Illinois Urbana-Champaign (UIUC), la Universidad de Princeton, la Universidad de Cornell y la semilla de bytedance introdujeron Reasonflux-Prm. La investigación introdujo ReasonFlux-PRM como un modelo consciente de la trayectoria que evalúa tanto los pasos de razonamiento intermedio como las respuestas finales. Integra la puntuación de nivel de paso y a nivel de trayectoria, lo que permite una comprensión más matizada de la calidad del razonamiento. ReasonFlux-PRM está capacitado en un conjunto de datos de 10,000 muestras de problemas de matemáticas y ciencias cuidadosamente seleccionados diseñados explícitamente para reflejar los formatos de respuesta de trayectoria del mundo real.
Marco técnico de razonflux-prm
Técnicamente, ReasonFlux-PRM funciona puntuando cada paso intermedio en una trayectoria con respecto a su contribución a la respuesta final. Utiliza una función de recompensa de referencia que considera el mensaje, los pasos de razonamiento previo y la salida final para asignar puntajes de nivel de paso. Estos se agregan para producir una recompensa de trayectoria total. El modelo admite múltiples aplicaciones, incluido el filtrado fuera de línea de datos de capacitación de alta calidad, una densa provisión de recompensas durante el aprendizaje de refuerzo utilizando la optimización de políticas basada en GRPO y la mejor selección de respuesta de tiempo de prueba para mejorar la calidad de inferencia. Estas capacidades hacen que ReasonFlux-PRM sea más flexible e integral que las PRM anteriores.
Resultados empíricos en puntos de referencia de razonamiento
En las evaluaciones de rendimiento en tareas como AIME, MATH500 y GPQA-Diamond, ReasonFlux-PRM-7B superó a QWEN2.5-MATH-PRM-72B y datos curados por humanos en varias métricas clave. Específicamente, logró una ganancia de precisión del 12.1% en el ajuste supervisado de fino, una mejora del 4.5% durante el aprendizaje de refuerzo y un aumento del 6.3% durante la escala del tiempo de prueba. Estas ganancias son particularmente considerables dado que ReasonFlux-PRM es más pequeño en el tamaño del modelo. La Tabla 1 muestra que el modelo QWEN2.5-14B-Instructo, cuando está entrenado en los datos seleccionados por RauleFLUX-PRM, alcanzó niveles de rendimiento cercanos o superiores a las líneas de base curadas por humanos. En contraste, otros PRM dieron como resultado caídas significativas de hasta el 26,6% en ciertos puntos de referencia.
Impacto y dirección futura de razonflux-prm
Esta investigación aborda una limitación crucial en la capacitación y evaluación de modelos de razonamiento modernos. Al habilitar la supervisión sobre las trayectorias de pensamiento y las respuestas finales, ReasonFlux-PRM mejora la calidad de los datos de capacitación y la confiabilidad de las respuestas del modelo. Establece una nueva dirección para evaluar y mejorar sistemáticamente los procesos de razonamiento en modelos grandes.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.