El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es esencial para garantizar la calidad y la seguridad en los LLM. Los LLM de última generación, como Gemini y GPT-4, pasan por tres etapas de entrenamiento: entrenamiento previo en grandes corpus, SFT y RLHF para refinar la calidad de la generación. RLHF implica entrenar un modelo de recompensa (RM) basado en las preferencias humanas y optimizar el LLM para maximizar las recompensas previstas. Este proceso es un desafío debido a que se olvida el conocimiento preentrenado y se piratean las recompensas. Un enfoque práctico para mejorar la calidad de la generación es el muestreo Best-of-N, que selecciona el mejor resultado de los candidatos generados por N, equilibrando de manera efectiva la recompensa y el costo computacional.
Los investigadores de Google DeepMind han presentado Best-of-N Distillation (BOND), un innovador algoritmo RLHF diseñado para replicar el rendimiento del muestreo Best-of-N sin su alto costo computacional. BOND es un algoritmo de coincidencia de distribución que alinea el resultado de la política con la distribución Best-of-N. Utilizando la divergencia de Jeffreys, que equilibra los comportamientos de cobertura y búsqueda de modos, BOND refina iterativamente la política a través de un enfoque de ancla móvil. Los experimentos sobre resumen abstractivo y modelos Gemma muestran que BOND, en particular su variante J-BOND, supera a otros algoritmos RLHF al mejorar las compensaciones entre recompensas KL y el rendimiento de referencia.
El muestreo Best-of-N optimiza la generación de lenguaje en relación con una función de recompensa, pero es costoso desde el punto de vista computacional. Estudios recientes han refinado sus fundamentos teóricos, proporcionado estimadores de recompensa y explorado sus conexiones con el aprendizaje de refuerzo restringido por KL. Se han propuesto varios métodos para que coincidan con la estrategia Best-of-N, como el ajuste fino supervisado en datos Best-of-N y la optimización de preferencias. BOND presenta un enfoque novedoso que utiliza la divergencia de Jeffreys y la destilación iterativa con un ancla dinámica para lograr de manera eficiente los beneficios del muestreo Best-of-N. Este método se centra en invertir recursos durante el entrenamiento para reducir las demandas computacionales del tiempo de inferencia, alineándose con los principios de la amplificación iterada.
El enfoque BOND implica dos pasos principales. En primer lugar, deriva una expresión analítica para la distribución Best-of-N (BoN). En segundo lugar, enmarca la tarea como un problema de emparejamiento de distribuciones, con el objetivo de alinear la política con la distribución BoN. La expresión analítica muestra que BoN repondera la distribución de referencia, desalentando a las generaciones pobres a medida que aumenta N. El objetivo BOND busca minimizar la divergencia entre la política y la distribución BoN. La divergencia de Jeffreys, que equilibra las divergencias KL hacia adelante y hacia atrás, se propone para un emparejamiento de distribuciones robusto. BOND iterativo refina la política aplicando repetidamente la destilación BoN con un N pequeño, lo que mejora el rendimiento y la estabilidad.
J-BOND es una implementación práctica del algoritmo BOND diseñado para ajustar políticas con una complejidad mínima de la muestra. Refina iterativamente la política para alinearla con las muestras Best-of-2 utilizando la divergencia de Jeffreys. El proceso implica generar muestras, calcular gradientes para componentes KL hacia adelante y hacia atrás y actualizar los pesos de la política. La política de anclaje se actualiza utilizando una media móvil exponencial (EMA), que mejora la estabilidad del entrenamiento y mejora el equilibrio entre recompensa y KL. Los experimentos muestran que J-BOND supera a los métodos RLHF tradicionales, demostrando efectividad y mejor rendimiento sin necesidad de un nivel de regularización fijo.
BOND es un nuevo método RLHF que ajusta las políticas a través de la destilación en línea de la distribución de muestreo Best-of-N. El algoritmo J-BOND mejora la practicidad y la eficiencia al integrar la estimación de cuantiles de Monte-Carlo, combinando objetivos de divergencia KL hacia adelante y hacia atrás, y utilizando un procedimiento iterativo con un ancla de promedio móvil exponencial. Este enfoque mejora el frente de Pareto de recompensa KL y supera las líneas base de última generación. Al emular la estrategia Best-of-N sin su sobrecarga computacional, BOND alinea las distribuciones de políticas más cerca de la distribución Best-of-N, demostrando su eficacia en experimentos sobre resumen abstractivo y modelos Gemma.
Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.