El desafío de hacer coincidir las preferencias humanas con los grandes modelos previamente entrenados ha ganado importancia en el estudio a medida que estos modelos han aumentado su rendimiento. Esta alineación se vuelve particularmente desafiante cuando inevitablemente hay comportamientos deficientes en conjuntos de datos más grandes. Para este tema, el aprendizaje reforzado a partir de la aportación humana, o RLHF, se ha vuelto popular. Los enfoques RLHF utilizan las preferencias humanas para distinguir entre comportamientos aceptables y malos para mejorar una política conocida. Este enfoque ha demostrado resultados alentadores cuando se utiliza para ajustar las reglas de los robots, mejorar los modelos de generación de imágenes y ajustar los modelos de lenguaje grande (LLM) utilizando datos que no son ideales. Este procedimiento consta de dos etapas para la mayoría de los algoritmos RLHF.
Primero, se recopilan datos de preferencias del usuario para entrenar un modelo de recompensa. Un algoritmo de aprendizaje por refuerzo (RL) disponible en el mercado optimiza ese modelo de recompensa. Lamentablemente, es necesario corregir los cimientos de este paradigma de dos fases. Las preferencias humanas deben asignarse por el total descontado de recompensas o el rendimiento parcial de cada segmento de comportamiento para que los algoritmos desarrollen modelos de recompensa a partir de datos de preferencias. Sin embargo, investigaciones recientes cuestionan esta teoría y sugieren que las preferencias humanas deberían basarse en el arrepentimiento de cada acción bajo la política ideal de la función de recompensa del experto. La evaluación humana probablemente se centra intuitivamente en la optimización y no en si las situaciones y los comportamientos proporcionan mayores recompensas.
Por lo tanto, la función de ventaja óptima, o el arrepentimiento negado, puede ser el número ideal para aprender de la retroalimentación en lugar de la recompensa. Los algoritmos RLHF de dos fases utilizan RL en su segunda fase para optimizar la función de recompensa conocida en la primera fase. En aplicaciones del mundo real, la asignación de crédito temporal presenta una variedad de dificultades de optimización para los algoritmos RL, incluida la inestabilidad de la programación dinámica de aproximación y la alta variación de los gradientes de políticas. Como resultado, trabajos anteriores restringen su alcance para evitar estos problemas. Por ejemplo, los enfoques RLHF para LLM asumen la formulación de bandido contextual, donde a la política se le otorga un valor de recompensa único en respuesta a una pregunta del usuario.
El supuesto del bandido de un solo paso se rompe porque las interacciones de los usuarios con los LLM son de varios pasos y secuenciales, aun cuando esto reduce el requisito de asignación de créditos a largo plazo y, como resultado, la alta variación de los gradientes de políticas. Otro ejemplo es la aplicación de RLHF a problemas de robótica basada en estados de baja dimensión, que funciona bien para la programación dinámica de aproximación. Sin embargo, aún debe ampliarse a dominios de control continuo de dimensiones superiores con entradas de imágenes, que son más realistas. En general, los enfoques RLHF requieren reducir las restricciones de optimización de RL haciendo suposiciones restringidas sobre la naturaleza secuencial de los problemas o la dimensionalidad. Generalmente creen erróneamente que la función de recompensa por sí sola determina las preferencias humanas.
En contraste con el modelo de retorno parcial ampliamente utilizado, que considera las recompensas totales, investigadores de la Universidad de Stanford, UMass Amherst y UT Austin proporcionan una nueva familia de algoritmos RLHF en este estudio que emplea un modelo de preferencias basado en el arrepentimiento. A diferencia del modelo de retorno parcial, el enfoque basado en el arrepentimiento proporciona información precisa sobre el mejor curso de acción. Afortunadamente, esto elimina la necesidad de RL, lo que nos permite abordar los problemas de RLHF con estados de alta dimensión y espacios de acción en el marco genérico de MDP. Su hallazgo fundamental es crear una biyección entre funciones de ventaja y políticas combinando el marco de preferencia basado en el arrepentimiento con el principio de Máxima Entropía (MaxEnt).
Pueden establecer un objetivo de aprendizaje puramente supervisado cuyo óptimo sea la mejor política bajo la recompensa del experto intercambiando optimización sobre ventajas a cambio de optimización sobre políticas. Debido a que su método se parece a objetivos de aprendizaje contrastivo ampliamente reconocidos, lo llaman Aprendizaje de Preferencia Contrastiva: tres beneficios principales del CPL sobre esfuerzos anteriores. En primer lugar, debido a que CPL iguala la ventaja óptima utilizando exclusivamente objetivos supervisados (en lugar de utilizar programación dinámica o gradientes de políticas), puede escalar tan bien como el aprendizaje supervisado. En segundo lugar, CPL está completamente fuera de política, lo que hace posible el uso de cualquier fuente de datos fuera de línea que no sea ideal. Por último, CPL permite búsquedas de preferencias sobre datos secuenciales para aprender sobre procesos de decisión de Markov (MDP) arbitrarios.
Hasta donde saben, las técnicas anteriores para RLHF aún tienen que satisfacer estos tres requisitos simultáneamente. Ilustran el desempeño de CPL en cuestiones de toma de decisiones secuenciales utilizando insumos fuera de políticas subóptimos y de alta dimensión para demostrar que se adhiere a los tres principios antes mencionados. Curiosamente, demuestran que CPL puede aprender reglas de manipulación temporalmente extendidas en MetaWorld Benchmark utilizando eficientemente el mismo proceso de ajuste fino de RLHF que los modelos de diálogo. Para ser más precisos, utilizan el aprendizaje supervisado a partir de observaciones de imágenes de alta dimensión para entrenar previamente políticas, que luego ajustan utilizando preferencias. CPL puede igualar el rendimiento de técnicas anteriores basadas en RL sin necesidad de programación dinámica o gradientes de políticas. También es cuatro veces más eficiente en cuanto a parámetros y 1,6 veces más rápido simultáneamente. En cinco de seis tareas, CPL supera las líneas de base de RL cuando utiliza datos de preferencias más densos. Los investigadores pueden evitar la necesidad de aprendizaje por refuerzo (RL) empleando el concepto de máxima entropía para crear Aprendizaje de Preferencia Contrastiva (CPL), un algoritmo para aprender políticas óptimas a partir de preferencias sin aprender funciones de recompensa.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.