Mejorar el aprendizaje por refuerzo a partir de la retroalimentación humana con modelos de recompensa generados por la crítica

Los modelos de lenguaje han ganado prominencia en el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), pero los enfoques actuales de modelado de recompensas enfrentan desafíos para capturar con precisión las preferencias humanas. Los modelos de recompensa tradicionales, entrenados como clasificadores simples, tienen dificultades para realizar razonamientos explícitos sobre la calidad de la respuesta, lo que limita su eficacia para guiar el comportamiento LLM. El problema principal radica en su incapacidad para generar rastros de razonamiento, lo que obliga a que todas las evaluaciones se realicen de manera implícita dentro de una sola pasada hacia adelante. Esta restricción obstaculiza la capacidad del modelo para evaluar minuciosamente los matices de las preferencias humanas. Si bien los enfoques alternativos como el marco LLM como juez han intentado abordar esta limitación, generalmente tienen un rendimiento inferior al de los modelos de recompensa clásicos en tareas de clasificación de preferencias por pares, lo que resalta la necesidad de un método más eficaz.

Los investigadores han intentado diversos enfoques para abordar los desafíos que presenta el modelado de recompensas para los modelos lingüísticos. Se han empleado modelos de clasificación como Bradley-Terry y Plackett-Luce, pero tienen dificultades con las preferencias intransitivas. Algunos estudios modelan directamente la probabilidad de que se prefiera una respuesta sobre otra, mientras que otros se centran en modelar recompensas en función de múltiples objetivos. Un trabajo reciente ha propuesto mantener y entrenar el modelo principal del lenguaje como una forma de regularización.

También se han explorado métodos de retroalimentación basados en la crítica, y algunos utilizan críticas autogeneradas para mejorar la calidad de la generación o servir como señales de preferencia. Sin embargo, estos enfoques difieren de los esfuerzos por entrenar mejores modelos de recompensa cuando se dispone de datos de preferencias humanas. Algunos investigadores han investigado el uso de críticas de oráculos o preferencias de crítica etiquetadas por humanos para enseñar a los modelos de lenguaje a criticar de manera eficaz.

El marco LLM-as-a-Judge, que utiliza una rúbrica de calificación para evaluar las respuestas, comparte similitudes con los métodos basados en la crítica, pero se centra en la evaluación en lugar de la revisión. Si bien este enfoque produce un razonamiento en cadena de pensamientos, generalmente tiene un rendimiento inferior al de los modelos de recompensa clásicos en tareas de clasificación de preferencias por pares.

Investigadores de Databricks, MIT y la Universidad de California en San Diego presentan Crítica en voz alta (Cloud) Modelos de recompensa, que representan un enfoque único para mejorar el rendimiento del modelo de lenguaje en el aprendizaje de refuerzo a partir de la retroalimentación humana. Estos modelos generan una crítica detallada de qué tan bien la respuesta de un asistente responde a la consulta de un usuario antes de producir una recompensa escalar por la calidad de la respuesta. Este proceso combina las fortalezas de los modelos de recompensa clásicos y el marco LLM como juez.

Los modelos de recompensa en la nube se entrenan utilizando un conjunto de datos de preferencias que contiene indicaciones, respuestas y críticas de oráculo. El proceso de entrenamiento implica un ajuste fino supervisado de las críticas de oráculo para la generación de críticas y el modelo de preferencia Bradley-Terry para la producción de recompensas escalares. Para mejorar el rendimiento, los investigadores exploran técnicas de inferencia de múltiples muestras, en particular la autoconsistencia, que implica muestrear múltiples predicciones de recompensas de críticas y marginalizar entre críticas para una estimación de recompensa más precisa.

Este enfoque innovador tiene como objetivo unificar los modelos de recompensa y los métodos LLM-as-a-Judge, lo que podría conducir a mejoras significativas en la precisión de la clasificación de preferencias por pares y las tasas de éxito en varios puntos de referencia. Los investigadores también investigan opciones de diseño clave, como el entrenamiento dentro de la política frente al entrenamiento fuera de la política, y los beneficios de la autoconsistencia frente a las críticas para optimizar el rendimiento del modelado de recompensas.

Los modelos de recompensa en la nube amplían los modelos de recompensa clásicos al incorporar un módulo de modelado de lenguaje junto con el modelo base y el módulo de recompensa. El proceso de entrenamiento implica un ajuste fino supervisado de las críticas del oráculo, su sustitución por críticas autogeneradas y, a continuación, el entrenamiento del módulo de recompensa con las críticas autogeneradas. Este enfoque minimiza el cambio de distribución entre el entrenamiento y la inferencia. El modelo utiliza funciones de pérdida modificadas, incluida una pérdida del modelo Bradley-Terry y una pérdida de ajuste fino supervisada por crítica. Para mejorar el rendimiento, los modelos en la nube pueden emplear la autoconsistencia durante la inferencia, muestreando múltiples críticas para un par de respuesta rápida y promediando sus recompensas previstas para una estimación final.

Los investigadores evaluaron los modelos de recompensa en la nube frente a los modelos de recompensa clásicos utilizando dos métricas clave: precisión de la clasificación de preferencias por pares y tasa de éxito de Best-of-N (BoN). Para la clasificación de preferencias por pares, utilizaron el conjunto de evaluación RewardBench, que incluye categorías como Chat, Chat-Hard, Seguridad y Razonamiento. La tasa de éxito de BoN se evaluó utilizando ArenaHard, un punto de referencia de generación de final abierto.

Los modelos de recompensa en la nube superaron significativamente a los modelos de recompensa clásicos en la clasificación de preferencias por pares en todas las categorías en RewardBench, tanto para las escalas de modelos 8B como 70B. Esto generó un aumento sustancial en la precisión promedio de los modelos en la nube.

En la evaluación de BoN en ArenaHard, los modelos de Cloud demostraron una mejora de Pareto con respecto a los modelos clásicos, lo que produjo tasas de victorias iguales o significativamente superiores. En el caso del mejor de 16, Cloud mejoró la tasa de victorias en 1,84 y 0,89 puntos porcentuales para los modelos 8B y 70B, respectivamente. Estos resultados sugieren que los modelos de recompensa de Cloud ofrecen un rendimiento superior a la hora de guiar el comportamiento de los modelos de lenguaje en comparación con los modelos de recompensa clásicos.

Este estudio presenta Modelos de recompensa en la nubeque representan un avance significativo en el modelado de preferencias para modelos de lenguaje. Al preservar las capacidades de modelado de lenguaje junto con un núcleo de recompensa escalar, estos modelos razonan explícitamente sobre la calidad de la respuesta a través de la generación de críticas. Este enfoque demuestra mejoras sustanciales sobre los modelos de recompensa clásicos en la precisión del modelado de preferencias por pares y el rendimiento de decodificación Best-of-N. La decodificación de autoconsistencia resultó beneficiosa para las tareas de razonamiento, particularmente aquellas con horizontes de razonamiento cortos. Al unificar la generación de lenguaje con el modelado de preferencias, los modelos de recompensa en la nube establecen un nuevo paradigma que abre caminos para mejorar los modelos de recompensa a través de la computación de inferencia variable, sentando las bases para un modelado de preferencias más sofisticado y efectivo en el desarrollo de modelos de lenguaje.

Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Más de 49 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí

Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Mejorar el aprendizaje por refuerzo a partir de la retroalimentación humana con modelos de recompensa generados por la crítica

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El nuevo modelo de IA de DeepSeek se está implementando silenciosamente, sin causar shock en el mercado de Wall Street

Cursor presenta un SDK de TypeScript para crear agentes de codificación programática con máquinas virtuales en la nube protegidas, subagentes, enlaces y precios basados en tokens

IBM lanza dos modelos Granite Speech 4.1 2B: ASR autorregresivo con traducción y edición no autorregresiva para una inferencia rápida

You missed

Los créditos de carbono salvaron los bosques tropicales, pero el exceso de crédito los infló 10 veces

El suministro de combustible para aviones en el Reino Unido aumentó en medio de la interrupción de Ormuz

Monica reacciona a la foto viral de un zapato blanco con IA con Claressa Shields

Dudas sobre la afirmación “descabellada” de que el control magnético puede activar genes