Nuevo método de IA de Meta y NYU Boosts LLM Alineación utilizando el aprendizaje de refuerzo semi-en línea

Optimización de LLM para la alineación humana utilizando el aprendizaje de refuerzo

Los modelos de lenguaje grande a menudo requieren una fase de alineación adicional para optimizarlos para el uso humano. En esta fase, el aprendizaje de refuerzo juega un papel central al permitir que los modelos tomen decisiones basadas en la retroalimentación humana o la corrección basada en tareas. Este ajuste fino permite que los modelos se alineen más estrechamente con las expectativas del usuario, lo que los hace más adecuados para aplicaciones basadas en instrucciones o tareas matemáticas precisas.

Desafíos en la elección de estrategias de aprendizaje de refuerzo fuera de línea versus en línea

Una gran dificultad surge al elegir la forma más efectiva de llevar a cabo este ajuste. Los métodos de capacitación se dividen en dos extremos: enfoques offline que dependen de los datos estáticos y previos a la generación y los enfoques totalmente en línea que se actualizan continuamente con cada nueva interacción. Cada método tiene desafíos distintos. Los modelos fuera de línea no pueden adaptarse durante la capacitación, lo que limita el rendimiento, mientras que los modelos en línea a menudo exigen más recursos computacionales. Además, garantizar que los modelos funcionen bien en tareas matemáticas (verificables) y abiertas (no verificables) agrega una mayor complejidad a esta elección.

Descripción general de los algoritmos de alineación: DPO y GRPO

Históricamente, se han empleado herramientas como la optimización de preferencia directa (DPO) y la optimización de políticas relativas del grupo (GRPO) para la alineación del modelo. DPO opera fuera de línea y está diseñado para funcionar con pares de datos basados ​​en preferencias. Se valora por su simplicidad y eficiencia de datos, pero carece de la adaptabilidad de los métodos en línea. GRPO se basa en el algoritmo PPO y maneja el ajuste fino en línea comparando grupos de resultados para calcular las ventajas relativas. Mientras que GRPO se adapta en tiempo real y se adapta a los sistemas de recompensas dinámicas, su naturaleza en la política aumenta la carga computacional y hace que la experimentación sea más exigente.

Una alternativa equilibrada para la alineación de LLM

La investigación introducida por Meta y NYU exploró un método para superar estas limitaciones a través de una configuración de capacitación semi-en línea. Esta técnica modula la frecuencia con la que se sincronizan los componentes de generación y entrenamiento del modelo, en lugar de actualizarse en cada paso de capacitación, como en los métodos totalmente en línea, o no en absoluto, como en las configuraciones fuera de línea. El método semi-en línea golpea un terreno medio ajustando la tasa de sincronización. Los investigadores diseñaron este enfoque para reducir el tiempo de entrenamiento y mantener una alta adaptabilidad del modelo. La configuración modular también les permitió aplicar DPO o GRPO con modelos de recompensa específicos de tareas de manera flexible.

Instrucción siguiente y razonamiento matemático

La metodología implicó ajustar el modelo LLAMA-3.1-8B-INSTRUT utilizando dos tipos de tareas: instrucción abierta seguida y resolución de problemas de matemáticas. Para las tareas no verificables, las indicaciones del usuario se muestrearon desde el conjunto de datos WildChat-1M y se evaluaron utilizando el modelo de recompensa Athene-RM-8B, que asigna puntajes escalares a cada mensaje. Para las tareas verificables, el equipo utilizó el conjunto de datos Numinamath junto con el kit de herramientas Math-Verify, que verifica si las respuestas generadas se alinean con las salidas esperadas. Los experimentos de entrenamiento se realizaron en 32 GPU NVIDIA H200 para capacitación y 8 GPU para inferencia, con diferentes configuraciones que comparan intervalos de sincronización fuera de línea, semi-en línea y en línea.

Ganancias de rendimiento en tareas verificables y no verificables

Se observaron las diferencias de rendimiento. En Math500, el DPO fuera de línea alcanzó la precisión del 53.7%, mientras que el DPO semi-en línea con un intervalo de sincronización de S = 100 logró un 58.9%. DPO en línea y GRPO mostraron resultados similares a 58.7% y 58.1%, respectivamente. Se observaron tendencias similares en el punto de referencia de Numinamath, donde el DPO fuera de línea alcanzó el 36,4%, y las variantes semi-enline aumentaron esto a 39,4% (s = 10). Las ganancias de rendimiento no se limitaron a las tareas matemáticas. Cuando las tareas no verificables se evaluaron con los puntos de referencia Alpacaeval 2.0 y arena, los modelos entrenados con tipos de recompensas mixtas funcionan consistentemente mejor. La combinación de recompensas verificables y no verificables en una sola configuración de entrenamiento resultó en puntajes promedio más fuertes, lo que indica que el método se generalizó de manera efectiva.

Un enfoque flexible y escalable para el aprendizaje de refuerzo en LLMS

Este estudio demuestra que los modelos de idiomas grandes ajustados no requieren una adherencia estricta a las configuraciones fuera de línea o en línea. Al introducir un esquema de sincronización flexible, el equipo de investigación de Meta y NYU aumentó efectivamente la eficiencia de entrenamiento mientras mantiene o mejora el rendimiento. Los resultados muestran que equilibrar cuidadosamente los tipos de recompensas y la frecuencia de sincronización de capacitación conduce a modelos que funcionan bien en los tipos de tareas sin incurrir en altos costos computacionales.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.