El aprendizaje de refuerzo de la retroalimentación humana (RLHF) es crucial para alinear los LLM con valores y preferencias humanas. A pesar de la introducción de alternativas no RL como DPO, los modelos líderes en la industria como ChatGPT/GPT-4, Claude y Gemini continúan dependiendo de algoritmos RL como PPO para la optimización de políticas. Investigaciones recientes se centran en las mejoras algorítmicas, incluida la eliminación de modelos críticos para reducir los costos computacionales, filtrar muestras ruidosas durante el muestreo PPO y mejorar los modelos de recompensas para mitigar los problemas de piratería de recompensas. Sin embargo, solo unos pocos estudios se centran en la construcción de datos RLHF (es decir, indicaciones de capacitación) y su escala de rendimiento en función de estas indicaciones de capacitación.
El éxito de RLHF depende en gran medida de la calidad del modelo de recompensa, que enfrenta tres desafíos: modelado de recompensas mal especificados para representar las preferencias humanas, las preferencias incorrectas y ambiguas en los conjuntos de datos de capacitación y la mala capacidad de generalización. Para abordar estos problemas, se introdujo GenRM para validar las predicciones del modelo contra las respuestas de la verdad en tierra, mostrando una buena resistencia a la piratería de recompensas y obtener la adopción en LLM avanzados como DeepSeekv3. Métodos como la selección de datos de principios que filtran instancias demasiado desafiantes durante la capacitación y la selección estratégica Los métodos identifican las indicaciones de capacitación clave para lograr un rendimiento comparable con datos reducidos. El análisis de la escala de rendimiento revela que RLHF muestra una generalización superior en comparación con SFT en nuevas entradas, pero reduce significativamente la diversidad de salida.
Los investigadores de Bytedance Seed abordan una brecha crítica en la investigación de RLHF donde el papel de la construcción de datos rápidos y su escalabilidad han recibido menos atención. Exploran cuellos de botella basados en datos que limitan la escala de rendimiento de RLHF, centrándose en el pirateo de recompensas y disminuir los desafíos de la diversidad de respuesta. Se introduce un sistema de recompensa híbrido combinando los verificadores de tareas de razonamiento (RTV) y un modelo de recompensa generativo (GENRM) que muestra una resistencia más fuerte a la piratería de recompensas y permite una evaluación más precisa de las respuestas contra las soluciones de verdad en el suelo. Además, se introduce un nuevo método de selección de inmediato llamado Pre-PPO para identificar las indicaciones inherentemente desafiantes de capacitación menos susceptibles a la piratería de recompensas.
La configuración experimental emplea dos modelos de lenguaje previamente capacitados de diferentes escalas: un modelo más pequeño con parámetros 25B y un modelo más grande con parámetros 150B. El conjunto de datos de capacitación contiene un millón de indicaciones de diversos dominios, incluidas las matemáticas, la codificación, el seguimiento de las instrucciones, la escritura creativa y el razonamiento lógico. Además, los investigadores construyeron un marco de evaluación detallado que cubre múltiples áreas de habilidades: razonamiento lógico, seguimiento de instrucciones, tareas STEM, codificación, procesamiento del lenguaje natural, conocimiento, comprensión contextual y generalización fuera de distribución. El marco de evaluación incluye dos versiones (v1.0 y v2.0) con indicaciones superpuestas, aunque V2.0 presenta indicaciones más desafiantes.
Los resultados experimentales muestran que el enfoque propuesto que combina pre-PPO con tareas matemáticas y de codificación priorizadas supera constantemente el método de referencia en los tamaños del modelo y los conjuntos de datos de evaluación. El enfoque muestra una mejora de +1.1 sobre la línea de base cuando se evalúa a intervalos de 100 pasos utilizando TestSet v1.0. Cuando se prueba en el TestSet V2.0 más desafiante, la mejora del rendimiento aumenta a +1.4. Las ganancias más sustanciales aparecen en las tareas de codificación y intensivas en matemáticas, con una mejora de +3.9 puntos en STEM y +3.2 puntos en la codificación. Estas mejoras se atribuyen a la priorización estratégica del razonamiento matemático y las tareas de codificación durante las primeras fases de capacitación de RLHF.
En conclusión, este documento aborda los cuellos de botella críticos en la escala de datos RLHF, identificando específicamente el pirateo de recompensas y la diversidad de respuesta reducida como desafíos significativos. Los investigadores propusieron un enfoque combinado con construcción estratégica rápida y priorización de capacitación en etapas tempranas para resolver este problema. El método utiliza RTV y GenRM para combatir la piratería de recompensas junto con la nueva estrategia de selección de pedido previo a la PPO que identifica y prioriza las indicaciones de capacitación desafiantes. El análisis revela que la supervisión de RTV muestra la resistencia más fuerte a la piratería de recompensas, seguida de GenRM con etiquetas de verdad en tierra y luego el modelo de recompensa BT. La investigación establece una base para optimizar la construcción de datos RLHF y desarrollar más métodos principales para recompensar la piratería y la alineación del modelo.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
