Los modelos de idiomas grandes (LLM) dependen de las técnicas de aprendizaje de refuerzo para mejorar las capacidades de generación de respuesta. Un aspecto crítico de su desarrollo es el modelado de recompensas, que ayuda a capacitar a los modelos para alinearse mejor con las expectativas humanas. Los modelos de recompensas evalúan las respuestas basadas en las preferencias humanas, pero los enfoques existentes a menudo sufren subjetividad y limitaciones en la corrección de objetivos. Esto puede conducir a un rendimiento subóptimo, ya que los modelos pueden priorizar la fluidez sobre la precisión. Mejorar el modelado de recompensas con señales de corrección verificables puede ayudar a mejorar la confiabilidad de los LLM en aplicaciones del mundo real.

Un desafío importante en los sistemas de modelado de recompensas actuales es su gran dependencia de las preferencias humanas, que son inherentemente subjetivas y propensas a los prejuicios. Estos modelos favorecen las respuestas verbosas o aquellos con elementos estilísticos atractivos en lugar de respuestas objetivamente correctas. La ausencia de mecanismos de verificación sistemáticos en los modelos de recompensa convencionales limita su capacidad para garantizar la corrección, haciéndolos vulnerables a la información errónea. Además, las limitaciones de seguimiento de instrucciones a menudo se ignoran, lo que lleva a salidas que no cumplen con los requisitos precisos del usuario. Es fundamental abordar estos problemas para mejorar la robustez y la confiabilidad de las respuestas generadas por IA.

Los modelos de recompensa tradicionales se centran en el aprendizaje de refuerzo basado en preferencias, como el aprendizaje de refuerzo con comentarios humanos (RLHF). Si bien RLHF mejora la alineación del modelo, no incorpora la verificación de corrección estructurada. Algunos modelos existentes intentan evaluar las respuestas basadas en la coherencia y la fluidez, pero carecen de mecanismos sólidos para verificar la precisión objetiva o la adherencia a las instrucciones. Los enfoques alternativos, como la verificación basada en reglas, se han explorado, pero no están ampliamente integrados debido a los desafíos computacionales. Estas limitaciones destacan la necesidad de un sistema de modelado de recompensas que combine las preferencias humanas con señales de corrección verificables para garantizar salidas de modelos de lenguaje de alta calidad.

Investigadores de la Universidad de Tsinghua introdujeron Modelado de recompensas de agente (brazo)un nuevo sistema de recompensas que integra modelos de recompensa basados ​​en preferencias convencionales con señales de corrección verificables. El método incorpora un agente de recompensa nombrado Recompensaque mejora la fiabilidad de las recompensas al combinar señales de preferencia humana con validación de corrección. Este sistema asegura que los LLM generen respuestas que los usuarios prefieren y son precisos. Al integrar la verificación objetiva y la evaluación de seguimiento de instrucciones, ARM proporciona un marco de modelado de recompensas más sólido que reduce los sesgos subjetivos y mejora la alineación del modelo.

El Recompensa El sistema consta de tres módulos centrales. El Enrutador Analiza las instrucciones del usuario para determinar qué agentes de verificación deben activarse según los requisitos de la tarea. El Agentes de verificación Evaluar las respuestas en dos aspectos críticos: corrección y adherencia objetiva a limitaciones difíciles. El agente de hecho verifica la información utilizando tanto el conocimiento paramétrico como las fuentes externas, asegurando que las respuestas estén bien formadas y fundadas. El agente de seguimiento de las instrucciones garantiza el cumplimiento de las limitaciones, el formato y las limitaciones de contenido al analizar instrucciones específicas y verificar las respuestas contra reglas predefinidas. El módulo final, Juecesintegra señales de corrección y puntajes de preferencia para calcular una puntuación general de recompensa, equilibrando la retroalimentación humana subjetiva con verificación objetiva. Esta arquitectura permite al sistema seleccionar dinámicamente los criterios de evaluación más apropiados para diferentes tareas, asegurando la flexibilidad y la precisión.

Extensos experimentos demostraron que Recompensa Superenta significativamente los modelos de recompensa tradicionales. Fue evaluado en puntos de referencia como RM Bench, JudgeBench e IfbenchLograr un rendimiento superior en la selección de respuestas fácticas y de seguimiento de restricciones. En Banco de rmel modelo logró un 76.0% puntaje de precisión con un motor de búsqueda y 79.3% sin, en comparación con 71.4% de modelos de recompensa convencionales. El sistema se aplicó aún más en el mundo real Best-of-N Search tareas, donde mejoró la precisión de la selección de respuesta en múltiples conjuntos de datos, incluidos Triviaqa, Ifeval y violonchelo. En Triviaqa, Recompensa logró una precisión de 68%superando el Armomano del modelo de recompensa base. Además, el modelo se usó para construir pares de preferencias para Capacitación de optimización de preferencias directas (DPO)donde los LLM entrenados con parejas de preferencias generadas por recompensas superaron a las capacitadas con anotaciones convencionales. Específicamente, los modelos entrenados con este método mostraron Mejoras en las tareas de respuesta y seguimiento de las preguntas basadas en la facturademostrando su efectividad en la alineación de LLM de refinación.

La investigación aborda una limitación crucial en el modelado de recompensas al integrar la verificación de corrección con la puntuación de preferencias humanas. Recompensa Mejora la confiabilidad de los modelos de recompensa y permite respuestas LLM más precisas y adherentes a la instrucción. Este enfoque allana el camino para una mayor investigación sobre la incorporación de señales de corrección verificables adicionales, que finalmente contribuye al desarrollo de sistemas de IA más confiables y capaces. El trabajo futuro puede ampliar el alcance de los agentes de verificación para cubrir dimensiones de corrección más complejas, asegurando que el modelado de recompensas continúe evolucionando con las crecientes demandas de aplicaciones impulsadas por la IA.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata