¿Los LLM realmente pueden juzgar con razonamiento? Los investigadores de Microsoft y Tsinghua introducen modelos de razonamiento de recompensas para escalar dinámicamente el calculador de tiempo de prueba para una mejor alineación

El aprendizaje de refuerzo (RL) ha surgido como un enfoque fundamental en la capacitación de LLM, utilizando señales de supervisión de la retroalimentación humana (RLHF) o las recompensas verificables (RLVR). Si bien RLVR se muestra prometedor en el razonamiento matemático, enfrenta limitaciones significativas debido a la dependencia de las consultas de capacitación con respuestas verificables. Este requisito limita las aplicaciones a la capacitación a gran escala sobre consultas de dominios generales donde la verificación resulta intratable. Además, los modelos de recompensa actuales, clasificados en tipos escalares y generativos, no pueden escalar efectivamente el tiempo de prueba para la estimación de recompensas. Los enfoques existentes aplican recursos computacionales uniformes en todas las entradas, sin adaptabilidad para asignar recursos adicionales a consultas desafiantes que requieren un análisis matizado.

Las estrategias de formulación y los esquemas de puntuación caracterizan los modelos de recompensa. Los enfoques numéricos asignan puntajes escalares a pares de respuesta de consulta, mientras que los métodos generativos producen retroalimentación del lenguaje natural. La puntuación sigue la evaluación absoluta de pares individuales o comparación discriminativa de las respuestas candidatas. Los modelos de recompensa generativo, alineados con el paradigma LLM-As-A-Judge, ofrecen comentarios interpretables pero enfrentan preocupaciones de confiabilidad debido a juicios sesgados. Los métodos de escala de tiempo de inferencia ajustan dinámicamente los recursos computacionales, incluidas las estrategias paralelas como el muestreo múltiple y la escala basada en horizonte para trazas de razonamiento extendidas. Sin embargo, carecen de adaptación sistemática a la complejidad de la entrada, lo que limita su efectividad en diversos tipos de consultas.

Investigadores de Microsoft Research, la Universidad de Tsinghua y la Universidad de Pekín han propuesto modelos de razonamiento de recompensas (RRMS), que realizan un razonamiento explícito antes de producir recompensas finales. Esta fase de razonamiento permite que los RRM asignen adaptativamente recursos computacionales adicionales al evaluar las respuestas a tareas complejas. RRMS introduce una dimensión para mejorar el modelado de recompensas mediante la escala de tiempo de prueba mientras mantiene la aplicabilidad general en diversos escenarios de evaluación. A través del razonamiento de la cadena de pensamiento, los RRM utilizan un cálculo adicional de tiempo de prueba para consultas complejas cuando las recompensas apropiadas no son evidentes de inmediato. Esto alienta a los RRM a las capacidades de razonamiento de recompensas autovolucionar sin rastreos de razonamiento explícito como datos de capacitación.

RRMS utilizan el modelo QWEN2 con una red troncal de transformador-decodificador, formulando el modelado de recompensas como finalización del texto donde los RRM generan procesos de pensamiento de manera autorregresiva seguidas de los juicios finales. Cada entrada contiene una consulta y dos respuestas para determinar la preferencia sin permitir lazos. Los investigadores usan el repositorio de recompensas para guiar el análisis sistemático a través de los criterios de evaluación, incluida la fidelidad de la instrucción, la ayuda, la precisión, la inofensiva y el nivel de detalle. RRMS admite la evaluación de la respuesta múltiple a través de sistemas de calificación ELO y torneos de eliminación de knockout, ambos combinables con la mayoría de la votación de la mayoría por la utilización mejorada de tiempo de cálculo de la prueba. Esto muestra RRMS varias veces para las comparaciones por pares, realizando votación mayoritaria para obtener resultados de comparación sólidos.

Los resultados de la evaluación muestran que los RRM logran un rendimiento competitivo contra las líneas de base fuertes en los puntos de referencia de prueba de recompensa y pandalm, con RRM-32B alcanzando una precisión del 98.6% en las categorías de razonamiento. La comparación con los modelos de DirectJudge entrenados en datos idénticos revela brechas de rendimiento sustanciales, lo que indica que los RRM usan efectivamente el cómputo de tiempo de prueba para consultas complejas. En la mejor inferencia guiada por recompensas, RRMS superan todos los modelos de referencia sin cómputo adicional de tiempo de prueba, y la mayoría de la mayoría de la mayoría proporcionan mejoras sustanciales en los subconjuntos evaluados. Los experimentos posteriores a la capacitación muestran mejoras de rendimiento aguas abajo constantes en MMLU-Pro y GPQA. Los experimentos de escala en modelos 7B, 14B y 32B confirman que los horizontes de pensamiento más largos mejoran constantemente la precisión.

En conclusión, los investigadores introdujeron RRM para realizar procesos de razonamiento explícitos antes de la asignación de recompensas para abordar la inflexibilidad computacional en los enfoques de modelado de recompensas existentes. RL de recompensa basada en reglas permite a RRMS desarrollar capacidades de razonamiento complejas sin requerir trazas de razonamiento explícitas como supervisión. RRMS utilizan eficientemente el cálculo del tiempo de prueba a través de enfoques de escala paralelos y secuenciales. La efectividad de las RRM en aplicaciones prácticas, incluida la mejor inferencia de la mejor inferencia de recompensas y la retroalimentación posterior al entrenamiento, demuestra su potencial como fuertes alternativas a los modelos tradicionales de recompensa escalar en las técnicas de alineación.


Mira el Papel y Modelos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.