Comprender las limitaciones de los modelos de recompensa actuales
Aunque los modelos de recompensas juegan un papel crucial en el aprendizaje de refuerzo de la retroalimentación humana (RLHF), muchos de los modelos abiertos de mayor rendimiento de la actualidad aún luchan para reflejar la gama completa de preferencias humanas complejas. Incluso con técnicas de entrenamiento sofisticadas, el progreso significativo ha sido limitado. Una razón importante parece ser las deficiencias en los conjuntos de datos de preferencias actuales, que a menudo son demasiado estrechas, generadas artificialmente o mal examinadas. Si bien algunos sistemas basados en reglas son efectivos para tareas claras como las matemáticas o la codificación, generalmente no logran capturar el juicio humano matizado. Además, los puntos de referencia comunes como Recomptsbench se están convirtiendo en indicadores menos confiables del rendimiento de RM del mundo real, mostrando una correlación deficiente con el éxito de la tarea posterior.
Desafíos en la creación de datos de preferencia y nuevos enfoques
La creación de datos de preferencia de alta calidad se ha basado tradicionalmente en los anotadores humanos, pero este método lleva mucho tiempo, costoso y, a veces, inconsistente. Para abordar esto, las técnicas recientes como RLAIF usan LLM para automatizar las anotaciones, a veces incluso superan a los humanos. Los enfoques más nuevos tienen como objetivo combinar las fortalezas de ambos integrando datos generados por LLM con etiquetas verificadas por humanos. Mientras tanto, los modelos de recompensas han evolucionado desde sistemas de puntuación simples, como el modelo Bradley-Terry, hasta marcos más complejos, incluidos los métodos de optimización generativos y directos. A pesar de la disponibilidad de numerosos modelos y conjuntos de datos abiertos robustos, los desafíos persisten en capturar con precisión las preferencias humanas matizadas en diversas tareas e idiomas.
Introducción de SynPref-40m: conjunto de datos de preferencias de Human-AI a gran escala
Investigadores de la investigación de 2050, Skywork Ai introducen Synpref-40m, un conjunto de datos masivo de 40 millones de pares de preferencias comisariadas a través de una tubería de dos etapas Human-AI. Los anotadores humanos aseguran la calidad a través de una verificación estricta, mientras que LLMS amplía la curación de datos utilizando la guía humana. A partir de esto, desarrollan Skywork-Reward-V2, una familia de ocho modelos de recompensa (parámetros 0.6b-8B) entrenados en un subconjunto de alta calidad de 26 M. Estos modelos logran resultados de última generación en siete puntos de referencia líderes, sobresaliendo en la alineación, seguridad, objetividad y robustez. El estudio destaca que el éxito proviene no solo del volumen de datos, sino de la curación cuidadosa y iterativa que combina la experiencia humana con escalabilidad de IA.
Tubería de curación humana de dos etapas escalable
Los modelos actuales de recompensas abiertas a menudo sufren de un sobreajuste a puntos de referencia estrechos, como Recomptsbench, que limita su utilidad del mundo real. Para abordar esto, los investigadores introducen una tubería de dos etapas y AI para curar datos de preferencias a gran escala. La etapa 1 comienza con anotaciones verificadas por humanos para guiar a LLM en el etiquetado de diversos atributos de preferencia, seguido de entrenamiento iterativo y análisis de errores para refinar el modelo de recompensa. La etapa 2 escala este proceso utilizando verificaciones de consistencia entre el mejor y un modelo de recompensa “oro” entrenado por humanos, filtrando muestras confiables sin más información humana. Este enfoque entaca un equilibrio entre calidad y escalabilidad, lo que en última instancia permite la creación de decenas de millones de pares de preferencias de alta calidad.
Benchmarking Skywork-Reward-V2: modelos compactos pero poderosos
La serie Skywork-Reward-V2 demuestra un fuerte rendimiento en múltiples puntos de referencia, superando tanto a los modelos más grandes (p. Ej. Entrenado con troncos QWEN3 (0.6B-8B) y LLAMA 3.1/3.2 (1B-8B), estos modelos logran puntajes altos en recompensas, PPE, Bench y JudgeBench, con la variante de mejor rendimiento (LLAMA-3.1-8B-40M) que supera a todos los demás con un puntaje promedio de 88.6. A pesar de los modelos de modelos más pequeños, los modelos SkyWork-Reward-V2 se benefician de los datos de preferencia de alta calidad (SynPref-40m) y las configuraciones de capacitación eficientes, lo que les permite generalizar mejor en los escenarios RLHF del mundo real. En particular, incluso los modelos medianos como el QWEN3-1.7B superan a algunos modelos 70B, enfatizando el impacto de la calidad de los datos de entrenamiento y la metodología sobre el recuento de parámetros puro.
Conclusión y perspectiva futura: escala con precisión
En conclusión, Synpref-40m, un conjunto de datos de preferencias a gran escala construido a través de una colaboración humana de dos etapas, que combina el juicio humano con escalabilidad basada en LLM. Utilizando un subconjunto curado de 26 millones de pares de preferencias, el equipo desarrolló el Skywork-Reward-V2, un conjunto de ocho modelos de recompensas (parámetros 0.6B-8B) que superan a los modelos existentes en siete puntos de referencia clave. Estos modelos muestran una fuerte generalización en la alineación con los valores humanos, asegurando la corrección, la seguridad y la robustez al sesgo. Estudios extensos confirman que tanto la calidad de los datos como el método de curación son los impulsores clave del rendimiento. Mirando hacia el futuro, los investigadores tienen como objetivo explorar nuevas estrategias de capacitación, a medida que los modelos de recompensa se vuelven centrales para el desarrollo y la alineación de LLM.
Mira el Papel, Modelo en la cara abrazada y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.