Reforzamiento de la curiosidad Aprendizaje de la retroalimentación humana CD-RLHF: un marco de IA que mitiga la compensación de alineación de diversidad en los modelos de idiomas

Los modelos de idiomas grandes (LLM) se han vuelto cada vez más dependientes del aprendizaje de refuerzo de la retroalimentación humana (RLHF) para ajustar en diversas aplicaciones, incluida la generación de códigos, el razonamiento matemático y la asistencia del diálogo. Sin embargo, ha surgido un desafío significativo en forma de diversidad de producción reducida al usar RLHF. La investigación ha identificado una compensación crítica entre la calidad de alineación y la diversidad de producción en modelos capacitados por RLHF. Cuando estos modelos se alinean altamente con los objetivos deseados, muestran una variabilidad de salida limitada. Esta limitación plantea preocupaciones para las tareas creativas abiertas como la generación de historias, la síntesis de datos y el equipo rojo, donde diversos resultados son esenciales para un rendimiento efectivo.

Los enfoques existentes para la alineación de LLM se han centrado en mejorar la instrucción siguiente, seguridad y confiabilidad a través de RLHF, pero estas mejoras a menudo tienen costo de la diversidad de producción. Se han desarrollado varios métodos para abordar este desafío, incluido el uso de la divergencia F con algoritmos DPO/PPO, que intentan equilibrar la diversidad y la alineación. Otros enfoques integran métricas de evaluación como Selfbleu y Sentence-Bert en el ajuste de FIN RL para aumentar la diversidad, particularmente para las tareas de enlace rojo. Además, algunos investigadores han explorado los métodos de aprendizaje de refuerzo impulsados ​​por la curiosidad, que van desde enfoques basados ​​en recuentos hasta técnicas basadas en errores de predicción. A pesar de estos esfuerzos, la compensación fundamental entre la calidad de la alineación y la diversidad de producción sigue siendo un desafío significativo.

Los investigadores de Baidu han propuesto un marco novedoso llamado aprendizaje de refuerzo impulsado por la curiosidad de la retroalimentación humana (CD-RLHF) para abordar la compensación de alineación de diversidad en los modelos de idiomas. Este enfoque incorpora la curiosidad como un mecanismo de recompensa intrínseco durante la etapa de entrenamiento RLHF, trabajando junto con las recompensas extrínsecas tradicionales del modelo de recompensa. CD-RLHF utiliza la dinámica delantera para calcular los errores de predicción de las representaciones estatales, lo que ayuda a estimar los niveles de curiosidad. Una característica clave de este enfoque es que los estados visitados con frecuencia se vuelven menos interesantes para el modelo. Este sistema de doble recompensa tiene como objetivo mantener una alta calidad de alineación al tiempo que promueve diversas salidas a través de variadas opciones de token en cada punto de decisión.

La implementación y evaluación de CD-RLHF abarca múltiples componentes y conjuntos de datos. La arquitectura se probó en dos conjuntos de datos principales: TL; DR para el resumen de texto, que contiene 93k pares de preferencias anotadas por humanos y ultraza para la instrucción siguiente, con 61.1k pares de entrenamiento. El marco se implementó utilizando varios modelos base que incluyen Gemma-2B, Gemma-7B, LLAMA-3.2-1B y LLAMA-3.2-3B, todos entrenados dentro del marco de la velocidad del chat. Los datos de capacitación se distribuyeron en etapas SFT, RM y PPO en una relación 20/40/40. A modo de comparación, se implementan métodos de referencia que incluyen Vanilla RLHF y Sent-Rewards, que utilizan puntajes Selfbleu y Sentence-Bert como recompensas adicionales durante la capacitación.

Los resultados experimentales demuestran el rendimiento superior de CD-RLHF en múltiples métricas y modelos de evaluación. En la tarea de resumen de TL; DR, CD-RLHF logra mejoras significativas en la diversidad de salida que muestran ganancias de 16.66% y 6.22% en Gemma-2B y Gemma-7B respectivamente en comparación con la línea de base RLHF. Para la tarea de seguimiento de instrucciones de ultragrafías, el método muestra resultados aún más impresionantes, con mejoras de diversidad que van desde 7.35% a 14.29% en diferentes modelos mientras se mantiene una fuerte calidad de alineación. La validación externa a través de la evaluación GPT-4 mostró que CD-RLHF logró tasas de ganancia de hasta 58% frente a la línea de base PPO en TL; DR y un promedio de 62% en UltraFeedback.

En conclusión, los investigadores introdujeron CD-RLHF, que representa un avance significativo para abordar la compensación de alineación de diversidad en la capacitación del modelo de idioma. El marco combina la exploración impulsada por la curiosidad con las recompensas extrínsecas tradicionales para mejorar la diversidad de resultados al tiempo que mantiene la calidad de la alineación, como se muestra a través de pruebas extensas en TL; resumen de DR y tareas de seguimiento de instrucciones ultraesedback. A pesar de estos logros, quedan varios desafíos, incluida la necesidad de equilibrar diferentes escalas de recompensa y la brecha persistente entre la diversidad de salida de SFT y los modelos entrenados por RLHF. Si bien CD-RLHF mitiga la compensación entre la diversidad y la alineación, se necesita más investigación para cerrar completamente esta brecha y lograr un rendimiento óptimo en ambas métricas.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.