Google DeepMind presenta WARP: un novedoso método de aprendizaje por refuerzo a partir de la retroalimentación humana RLHF para alinear los LLM y optimizar el frente de Pareto de las soluciones KL-Reward

El aprendizaje reforzado a partir de la retroalimentación humana (RLHF) anima a las generaciones a obtener altas recompensas, utilizando un modelo de recompensa entrenado en las preferencias humanas para alinear grandes modelos de lenguaje (LLM). Sin embargo, RLHF tiene varios problemas sin resolver. En primer lugar, el proceso de ajuste a menudo se limita a pequeños conjuntos de datos, lo que hace que el modelo se vuelva demasiado especializado y pierda la amplia gama de conocimientos que aprendió durante el entrenamiento previo. Esto puede reducir la capacidad de razonamiento del LLM y su rendimiento en los puntos de referencia de PNL. En segundo lugar, intentar maximizar un modelo de recompensa (RM) imperfecto puede generar problemas, ya que el LLM podría encontrar formas de explotar las fallas en el RM. Por último, RLHF puede reducir la variedad de resultados, provocando que el modelo colapse para producir respuestas similares.

Este artículo analiza dos temas relacionados. El primer tema es cómo fusionar modelos. Recientemente, ha ganado gran atención la idea de fusionar modelos profundos en el espacio de ponderación, en lugar de en el espacio de predicción como se hace tradicionalmente en el ensamblaje. Este método se llama promedio de peso (WA) y la forma más común de WA es LERP. Este formulario se utilizó inicialmente para promediar puntos de control de una sola ejecución, de manera uniforme o con una media móvil exponencial (EMA). El segundo tema son los beneficios de la fusión de modelos, donde WA mejora la generalización al reducir la varianza, la memorización y aplanar el panorama de pérdidas. Además, la combinación de pesos combina sus puntos fuertes, lo que resulta útil en configuraciones de tareas múltiples.

Un equipo de Google DeepMind ha propuesto políticas de recompensa con promedio de peso (WARP), un método para alinear los LLM y optimizar el frente de soluciones de recompensa de Pareto de Kullback-Leibler (KL). WARP utiliza tres tipos de WA en tres etapas del proceso de alineación por distintas razones. En primer lugar, utiliza la media móvil exponencial de la política en la regularización de KL como punto de referencia flexible. En segundo lugar, fusiona políticas afinadas en una política mejorada mediante interpolación esférica. En tercer lugar, interpola linealmente entre el modelo fusionado y la inicialización, para recuperar características del entrenamiento previo. Este proceso se repite, donde cada modelo final sirve como punto de partida para la siguiente iteración y mejora el frente de Pareto de recompensa de KL, obteniendo mejores recompensas en KL fijo.

En el experimento realizado por el equipo, se considera Gemma “7B” LLM y se ajusta con RLHF para convertirla en un mejor agente conversacional. Además, también se utiliza el gradiente de política REINFORCE para optimizar la recompensa regularizada por KL. Después de eso, se generan muestras de acuerdo con la política utilizando el conjunto de datos que incluye indicaciones de conversación, con una temperatura de 0,9, un tamaño de lote de 128, un optimizador Adam con una tasa de aprendizaje de 10−6, un calentamiento de 100 pasos y se aplica SLERP a las 28 capas por separado. Es importante señalar que este experimento se basa en el modelo de recompensa de alta capacidad, el más grande disponible, lo que evita el uso de un RM de control de oráculo.

Se realizaron comparaciones lado a lado para las políticas capacitadas con los LLM de Mistral y Mixtral. Cada política generó una respuesta candidata a partir de un conjunto de indicaciones como se describe en el informe técnico de Gemma. De manera similar a Gemini 1.5, las tasas de preferencia en paralelo se calcularon con “mucho mejor”, “mejor” y “ligeramente mejor” recibiendo puntuaciones de ±1,5, ±1 y ±0,5 respectivamente, y los empates recibieron una puntuación de 0. Una puntuación positiva significa mejores políticas. Los resultados validan que WARP es eficiente, ya que las políticas propuestas fueron preferidas a las variantes de Mistral y superaron a las versiones anteriores de Gemma “7B”.

En conclusión, un equipo de Google DeepMind ha introducido (WARP), un novedoso método RLHF para alinear los LLM y optimizar el frente de soluciones de Pareto de recompensa KL. Utiliza tres etapas distintas de fusión de modelos, (a) media móvil exponencial como ancla dinámica durante RL, (b) interpolación esférica para combinar múltiples políticas recompensadas de forma independiente y (c) interpolación hacia la inicialización compartida. Esta aplicación iterativa de WARP mejora el frente de Pareto de recompensa de KL, alineando los LLM al mismo tiempo que protege el conocimiento de la capacitación previa y se compara favorablemente con las líneas de base de última generación. En el futuro, WARP podría ayudar a crear sistemas de IA seguros y potentes mejorando la alineación y fomentando más estudios de técnicas de fusión de modelos.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios


🚀 ¡Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ahora disponible de forma generalizada! [Advertisement]


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.