TL;DR: En RLHF, existe tensión entre la fase de aprendizaje de recompensas, que utiliza la preferencia humana en forma de comparaciones, y la fase de ajuste fino de RL, que optimiza una recompensa única y no comparativa. ¿Y si realizáramos la RL de forma comparativa?
Figura 1:
Este diagrama ilustra la diferencia entre el aprendizaje por refuerzo de absoluto retroalimentación y relativo comentario. Al incorporar un nuevo componente, el gradiente de políticas por pares, podemos unificar la etapa de modelado de recompensas y la etapa de RL, lo que permite actualizaciones directas basadas en respuestas por pares.
Los modelos de lenguajes grandes (LLM) han impulsado asistentes virtuales cada vez más capaces, como GPT-4, claude-2, Bardo y Chat de Bing. Estos sistemas pueden responder a consultas complejas de los usuarios, escribir código e incluso producir poesía. La técnica subyacente a estos increíbles asistentes virtuales es el aprendizaje por refuerzo con retroalimentación humana (RLHF). RLHF tiene como objetivo alinear el modelo con los valores humanos y eliminar comportamientos no deseados, que a menudo pueden surgir debido a que el modelo está expuesto a una gran cantidad de datos de baja calidad durante su fase previa al entrenamiento.
Optimización de política próxima (PPO), el optimizador de RL dominante en este proceso, se ha informado que exhibe inestabilidad y complicaciones de implementación. Más importante aún, existe una discrepancia persistente en el proceso RLHF: a pesar de que el modelo de recompensa se entrena mediante comparaciones entre varias respuestas, la etapa de ajuste fino de RL trabaja en respuestas individuales sin hacer ninguna comparación. Esta inconsistencia puede exacerbar los problemas, especialmente en el desafiante dominio de la generación de lenguajes.
En este contexto, surge una pregunta intrigante: ¿es posible diseñar un algoritmo RL que aprenda de manera comparativa? Para explorar esto, presentamos la optimización de políticas próximas por pares (P3O), un método que armoniza los procesos de entrenamiento tanto en la etapa de aprendizaje de recompensa como en la etapa de ajuste de RL de RLHF, brindando una solución satisfactoria a este problema.
Fondo
Figura 2:
Una descripción de las tres etapas de RLHF desde un punto de vista Publicación del blog de OpenAI. Tenga en cuenta que la tercera etapa se incluye en el aprendizaje por refuerzo con retroalimentación absoluta, como se muestra en el lado izquierdo de la Figura 1.
En la configuración tradicional de RL, la recompensa la especifica manualmente el diseñador o la proporciona una función de recompensa bien definida, como en los juegos de Atari. Sin embargo, definir una buena recompensa no es sencillo para orientar un modelo hacia respuestas útiles e inofensivas. RLHF aborda este problema aprendiendo la función de recompensa a partir de la retroalimentación humana, específicamente en forma de comparaciones, y luego aplicando RL para optimizar la función de recompensa aprendida.
El oleoducto RLHF se divide en varias etapas, que se detallan a continuación:
Etapa de ajuste supervisada: El modelo previamente entrenado sufre la pérdida de máxima probabilidad en un conjunto de datos de alta calidad, donde aprende a responder a consultas humanas mediante la imitación.
Etapa de modelado de recompensas: El modelo SFT recibe indicaciones \(x\) para producir pares de respuestas \(y_1,y_2\sim \pi^{\text{SFT}}(y\vert x)\). Estas respuestas generadas forman un conjunto de datos. Los pares de respuestas se presentan a los etiquetadores humanos que expresan una preferencia por una respuesta sobre la otra, denotada como \(y_w \succ y_l\). Luego se utiliza una pérdida comparativa para entrenar un modelo de recompensa \(r_\phi\):
\[\mathcal{L}_R = \mathbb{E}_{(x,y_l,y_w)\sim\mathcal{D}}\log \sigma\left(r_\phi(y_w|x)-r_\phi(y_l|x)\right)\]
Etapa de ajuste fino de RL: El modelo SFT sirve como inicialización de esta etapa, y un algoritmo RL optimiza la política para maximizar la recompensa al tiempo que limita la desviación de la política inicial. Formalmente, esto se hace a través de:
\[\max_{\pi_\theta}\mathbb{E}_{x\sim \mathcal{D}, y\sim \pi_\theta(\cdot\vert x)}\left[r_\phi(y\vert x)-\beta D_{\text{KL}}(\pi_\theta(\cdot\vert x)\Vert \pi^{\text{SFT}}(\cdot\vert x))\right]\]
Un desafío inherente a este enfoque es la no unicidad de la recompensa. Por ejemplo, dada una función de recompensa \(r(y\vert x)\), un simple cambio en la recompensa del mensaje a \(r(y\vert x)+\delta(x)\) crea otra recompensa válida función. Estas dos funciones de recompensa dan como resultado la misma pérdida para cualquier par de respuestas, pero difieren significativamente cuando se optimizan con RL. En un caso extremo, si el ruido agregado hace que la función de recompensa tenga un rango grande, un algoritmo RL podría ser engañado para aumentar la probabilidad de respuestas con recompensas más altas, aunque esas recompensas no sean significativas. En otras palabras, la política podría verse alterada por la información de la escala de recompensas en el mensaje \(x\), pero no logra aprender la parte útil: la preferencia relativa representada por la diferencia de recompensas. Para abordar este problema, nuestro objetivo es desarrollar un algoritmo RL que sea invariante para recompensar la traducción.
Derivación de P3O
Nuestra idea surge del gradiente de política vainilla (VPG). VPG es un optimizador de RL de primer orden ampliamente adoptado, favorecido por su simplicidad y facilidad de implementación. En un bandido contextual (CB) configuración, el VPG se formula como:
\[\nabla \mathcal{L}^{\text{VPG}} = \mathbb{E}_{y\sim\pi_{\theta}} r(y|x)\nabla\log\pi_{\theta}(y|x)\]
Mediante alguna manipulación algebraica, podemos reescribir el gradiente de políticas en una forma comparativa que implique dos respuestas al mismo mensaje. lo nombramos Gradiente de política por pares:
\[\mathbb{E}_{y_1,y_2\sim\pi_{\theta}}\left(r(y_1\vert x)-r(y_2\vert x)\right)\nabla\left(\log\frac{\pi_\theta(y_1\vert x)}{\pi_\theta(y_2\vert x)}\right)/2\]
A diferencia de VPG, que depende directamente de la magnitud absoluta de la recompensa, PPG utiliza la diferencia de recompensa. Esto nos permite evitar el problema antes mencionado de la traducción de recompensas. Para mejorar aún más el rendimiento, incorporamos un búfer de reproducción usando Muestreo de importancia y evite grandes actualizaciones de gradiente a través de Recorte.
Muestreo de importancia: Tomamos muestras de un lote de respuestas del búfer de reproducción que consisten en respuestas generadas a partir de \(\pi_{\text{old}}\) y luego calculamos la proporción de muestreo de importancia para cada par de respuestas. El gradiente es la suma ponderada de los gradientes calculados a partir de cada par de respuestas.
Recorte: Recortamos la proporción de muestreo de importancia así como la actualización de gradiente para penalizar las actualizaciones excesivamente grandes. Esta técnica permite que el algoritmo intercambie la divergencia de KL y la recompensa de manera más eficiente.
Hay dos formas diferentes de implementar la técnica de recorte, que se distinguen entre recorte separado o conjunto. El algoritmo resultante se denomina optimización de política próxima por pares (P3O), siendo las variantes V1 o V2 respectivamente. Puedes encontrar más detalles en nuestro original. papel.
Evaluación
Figura 3:
Frontera de recompensa KL para TL; DR, tanto KL secuencial como la recompensa se promedian en 200 indicaciones de prueba y se calculan cada 500 pasos de gradiente. Encontramos que una función lineal simple se ajusta bien a la curva. P3O tiene la mejor compensación KL-Reward entre los tres.
Exploramos dos tareas diferentes de generación de texto abierto, resumen y preguntas y respuestas. En resumen, utilizamos el TL;DR conjunto de datos donde el mensaje \(x\) es una publicación en el foro de Reddit y \(y\) es el resumen correspondiente. Para responder preguntas, utilizamos Anthropic Útil e Inofensivo (S.S), el mensaje \(x\) es una consulta humana sobre varios temas, y la política debe aprender a producir una respuesta atractiva y útil \(y\).
Comparamos nuestro algoritmo P3O con varios enfoques efectivos y representativos para la alineación de LLM. Empezamos con el OFV política entrenada por máxima verosimilitud. Para los algoritmos RL, consideramos el enfoque dominante. PPO y la nueva propuesta DPO. DPO optimiza directamente la política hacia la solución de forma cerrada del problema de RL restringido por KL. Aunque se propone como método de alineación fuera de línea, lo hacemos en línea con la ayuda de una función de recompensa de proxy.
Figura 4:
Frontera KL-Reward para HH, cada punto representa un promedio de los resultados de más de 280 indicaciones de prueba y se calcula cada 500 actualizaciones de gradiente. Las dos figuras de la izquierda comparan P3O-V1 y PPO con diferentes tamaños de modelos base; Las dos figuras de la derecha comparan P3O-V2 y DPO. Los resultados muestran que P3O no sólo puede lograr una mayor recompensa sino también un mejor control de KL.
Desviarse demasiado de la política de referencia llevaría a la política en línea a tomar atajos en el modelo de recompensa y producir continuaciones incoherentes, como lo señalan trabajos anteriores. Estamos interesados no sólo en la métrica bien establecida en la literatura de RL: la recompensa, sino también en hasta qué punto la política aprendida se desvía de la política inicial, medida por la divergencia KL. Por lo tanto, investigamos la efectividad de cada algoritmo según su frontera de recompensa lograda y su divergencia KL con respecto a la política de referencia (KL-Frontera de recompensas). En la Figura 4 y la Figura 5, descubrimos que P3O tiene fronteras estrictamente dominantes que PPO y DPO en varios tamaños de modelos.
Figura 5:
La figura de la izquierda muestra la tasa de ganancias evaluada por GPT-4. La figura de la derecha presenta la tasa de ganancias basada en la comparación directa de la recompensa del proxy. A pesar de la alta correlación entre dos cifras, descubrimos que la tasa de ganancias de recompensa debe ajustarse de acuerdo con el KL para alinearse con la tasa de ganancias de GPT-4.
Para evaluar directamente la calidad de las respuestas generadas, también realizamos Comparaciones cara a cara entre cada par de algoritmos en el conjunto de datos de HH. Utilizamos dos métricas para la evaluación: (1) Premioel objetivo optimizado durante la RL en línea, (2) GPT-4, como un fiel representante de la evaluación humana de la utilidad de la respuesta. Para la última métrica, señalamos que estudios previos muestran que los juicios de GPT-4 se correlacionan fuertemente con los humanos, con una concordancia humana con GPT-4 típicamente similar o mayor que la concordancia entre anotadores entre humanos.
La Figura 5 presenta los resultados completos de la comparación por pares. La clasificación promedio de recompensa y divergencia KL de estos modelos es DPO > P3O > PPO > SFT. Aunque DPO supera marginalmente a P3O en recompensa, tiene una divergencia KL considerablemente mayor, lo que puede ser perjudicial para la calidad de la generación. Como resultado, DPO tiene una tasa de obtención de recompensas del 49,5% frente a P3O, pero solo del 45,4% según la evaluación de GPT-4. En comparación con otros métodos, P3O muestra una tasa de victorias de GPT-4 del 57,0 % frente a PPO y del 69,3 % frente a SFT. Este resultado es consistente con nuestros hallazgos de la métrica de frontera KL-Reward, afirmando que P3O podría alinearse mejor con las preferencias humanas que las líneas de base anteriores.
Conclusión
En esta publicación de blog, presentamos nuevos conocimientos sobre cómo alinear modelos de lenguaje grandes con las preferencias humanas mediante el aprendizaje por refuerzo. Propusimos el marco de aprendizaje por refuerzo con retroalimentación relativa, como se muestra en la Figura 1. Bajo este marco, desarrollamos un nuevo algoritmo de gradiente de políticas: P3O. Este enfoque unifica los principios fundamentales del modelado de recompensas y el ajuste de RL a través de la capacitación comparativa. Nuestros resultados muestran que P3O supera los métodos anteriores en términos de la frontera de KL-Reward, así como en la tasa de ganancias de GPT-4.
BibTex
Este blog está basado en nuestro reciente papel y Blog. Si este blog inspira su trabajo, considere citarlo con:
@article{wu2023pairwise,
title={Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment},
author={Wu, Tianhao and Zhu, Banghua and Zhang, Ruoyu and Wen, Zhaojin and Ramchandran, Kannan and Jiao, Jiantao},
journal={arXiv preprint arXiv:2310.00212},
year={2023}
}