HyPO: un algoritmo híbrido de aprendizaje por refuerzo que utiliza datos fuera de línea para la optimización de preferencias basada en contrastes y datos en línea sin etiquetar para la regularización de KL

Un aspecto fundamental de la investigación en IA consiste en ajustar los grandes modelos de lenguaje (LLM) para alinear sus resultados con las preferencias humanas. Este ajuste garantiza que los sistemas de IA generen respuestas útiles, relevantes y alineadas con las expectativas de los usuarios. El paradigma actual en IA hace hincapié en el aprendizaje a partir de los datos de preferencias humanas para refinar estos modelos, abordando la complejidad de especificar manualmente las funciones de recompensa para diversas tareas. Las dos técnicas predominantes en esta área son el aprendizaje por refuerzo en línea (RL) y los métodos contrastivos fuera de línea, cada uno de los cuales ofrece ventajas y desafíos únicos.

Un desafío central en el ajuste fino de los modelos LLM para reflejar las preferencias humanas es la cobertura limitada de los conjuntos de datos estáticos. Estos conjuntos de datos pueden necesitar representar adecuadamente la gama diversa y dinámica de preferencias humanas en aplicaciones del mundo real. El problema de la cobertura de los conjuntos de datos se vuelve particularmente pronunciado cuando los modelos se entrenan exclusivamente con datos recopilados previamente, lo que puede conducir a un rendimiento subóptimo. Este problema subraya la necesidad de métodos para aprovechar eficazmente los conjuntos de datos estáticos y los datos en tiempo real para mejorar la alineación del modelo con las preferencias humanas.

Las técnicas existentes para el ajuste fino de preferencias en los LLM incluyen métodos de RL en línea, como la Optimización de Políticas Proximales (PPO, por sus siglas en inglés), y métodos contrastivos fuera de línea, como la Optimización de Preferencias Directas (DPO, por sus siglas en inglés). Los métodos de RL en línea implican un procedimiento de dos etapas en el que se entrena un modelo de recompensa en un conjunto de datos de preferencias fuera de línea fijo, seguido de un entrenamiento de RL utilizando datos de políticas. Este enfoque se beneficia de la retroalimentación en tiempo real, pero es computacionalmente intensivo. Por el contrario, los métodos contrastivos fuera de línea optimizan las políticas basándose únicamente en datos recopilados previamente, lo que evita la necesidad de un muestreo en tiempo real, pero potencialmente sufre de sobreajuste y capacidades de generalización limitadas.

Investigadores de la Universidad Carnegie Mellon, Aurora Innovation y la Universidad de Cornell presentaron un nuevo método llamado Optimización de preferencias híbridas (HyPO)Este enfoque híbrido combina el poder de las técnicas en línea y fuera de línea, con el objetivo de mejorar el rendimiento del modelo y, al mismo tiempo, mantener la eficiencia computacional. HyPO integra datos fuera de línea para la optimización de la preferencia inicial. Utiliza datos en línea sin etiquetar para la regularización de Kullback-Leibler (KL), lo que garantiza que el modelo se mantenga cerca de una política de referencia y se generalice mejor más allá de los datos de entrenamiento.

HyPO utiliza un sofisticado marco algorítmico que aprovecha los datos fuera de línea para el objetivo DPO y las muestras en línea para controlar la divergencia KL inversa. El algoritmo actualiza iterativamente los parámetros del modelo optimizando la pérdida de DPO mientras incorpora un término de regularización KL derivado de las muestras en línea. Este enfoque híbrido aborda de manera eficaz las deficiencias de los métodos puramente fuera de línea, como el sobreajuste y la cobertura insuficiente del conjunto de datos, al incorporar las fortalezas de los métodos RL en línea sin su complejidad computacional.

El rendimiento de HyPO se evaluó en varios puntos de referencia, incluida la tarea de resumen TL;DR y puntos de referencia de chat generales como AlpacaEval 2.0 y MT-Bench. Los resultados fueron impresionantes: HyPO logró una tasa de éxito del 46,44 % en la tarea TL;DR utilizando el modelo Pythia 1.4B, en comparación con el 42,17 % del método DPO. Para el modelo Pythia 2.8B, HyPO logró una tasa de éxito del 50,50 %, superando significativamente el 44,39 % de DPO. Además, HyPO demostró un control superior sobre la divergencia KL inversa, con valores de 0,37 y 2,51 para los modelos Pythia 1.4B y 2.8B, respectivamente, en comparación con 0,16 y 2,43 para DPO.

En las pruebas de chat generales, HyPO también mostró mejoras notables. Por ejemplo, en la evaluación MT-Bench, los modelos optimizados de HyPO lograron puntuaciones de 8,43 y 8,09 en los promedios del primer y segundo turno, respectivamente, superando las puntuaciones de los modelos optimizados con DPO de 8,31 y 7,89. De manera similar, en AlpacaEval 2.0, HyPO logró tasas de victorias del 30,7 % y 32,2 % para el primer y segundo turno, en comparación con el 28,4 % y el 30,9 % de DPO.

Los resultados empíricos destacan la capacidad de HyPO para mitigar los problemas de sobreajuste que se observan comúnmente en los métodos contrastivos fuera de línea. Por ejemplo, cuando se entrenó con el conjunto de datos TL;DR, HyPO mantuvo una puntuación KL de validación media significativamente inferior a la de DPO, lo que indica una mejor alineación con la política de referencia y un sobreajuste reducido. Esta capacidad de aprovechar los datos en línea para la regularización ayuda a HyPO a lograr un rendimiento más sólido en varias tareas.

En conclusión, la introducción de la optimización de preferencias híbrida (HyPO), que combina eficazmente datos en línea y fuera de línea, aborda las limitaciones de los métodos existentes y mejora la alineación de los grandes modelos lingüísticos con las preferencias humanas. Las mejoras de rendimiento demostradas en las evaluaciones empíricas subrayan el potencial de HyPO para ofrecer sistemas de IA más precisos y confiables.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.