El estudio actual examina qué tan bien los LLM se alinean con los atributos deseables, como la utilidad, la inocuidad, la precisión de los hechos y la creatividad. El enfoque principal está en un proceso de dos etapas que implica aprender un modelo de recompensa a partir de las preferencias humanas y luego alinear el modelo de lenguaje para maximizar esta recompensa. Aborda dos cuestiones clave:
- Mejorar la alineación considerando diferentes transformaciones de la recompensa aprendida.
- Combinar eficazmente múltiples modelos de recompensa al alinear los modelos de lenguaje con varios atributos.
Sin embargo, el desafío radica en la necesidad de un objetivo de alineación definido con precisión, lo que lleva a explorar varios métodos de transformación y agregación sin un principio rector claro.
Investigadores de la Universidad de Chicago, Google Research, Google DeepMind y la Universidad de Stanford mencionan el problema de alinear los modelos de lenguaje con las preferencias humanas aprendiendo un modelo de recompensa a partir de datos de preferencias y actualizando el modelo de lenguaje, proponiendo una técnica de transformación de recompensas y la combinación de múltiples modelos de recompensa. La transformación derivada enfatiza la mejora de los resultados de bajo rendimiento y permite la agregación de recompensas basada en principios, lo que lleva a mejoras sustanciales en la alineación de los modelos de lenguaje para que sean útiles e inofensivos.
Varias técnicas abordan la piratería de recompensas en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), incluido el promedio de modelos de recompensa, la optimización restringida y la recopilación iterativa de preferencias humanas. Al proponer un método complementario, el estudio explora la alineación de modelos lingüísticos con múltiples objetivos, con enfoques comunes que implican combinaciones de sumas ponderadas de modelos de recompensa individuales. La técnica de transformación presentada se aplica a estrategias de alineación que maximizan la utilidad esperada. Si bien algunos métodos de alineación utilizan etiquetas de preferencia directamente, las clasificaciones se calculan a partir de un agregado cuando se alinean con varias propiedades. Aborda la necesidad de una función de utilidad acotada.
La investigación menciona una técnica de transformación para alinear modelos de lenguaje con las preferencias humanas aprendiendo un modelo de recompensa a partir de datos de preferencias y actualizando el modelo de lenguaje. Los investigadores utilizan una interpretación probabilística del procedimiento de alineación para identificar una elección natural de transformación para obtener recompensas aprendidas de los modelos de preferencia de Bradley-Terry. La transformación derivada enfatiza la mejora de los resultados de bajo rendimiento y mitiga el desajuste y la piratería de recompensas. El estudio también explora la combinación de múltiples modelos de recompensa y permite la agregación de recompensas basada en principios al vincular la suma con la conjunción lógica. Se llevan a cabo experimentos, alineando los modelos de lenguaje para que sean útiles e inofensivos utilizando RLHF y mostrando mejoras sustanciales con respecto al enfoque de referencia.
En comparación con el enfoque de referencia, el enfoque demuestra mejoras sustanciales en la alineación de los modelos de lenguaje para que sean útiles e inofensivos al usar RLHF. La técnica de transformación de recompensas y la combinación de múltiples modelos de recompensa muestran resultados prometedores a la hora de alinear los modelos lingüísticos con las preferencias humanas. La suma de las recompensas transformadas corresponde mejor al AND lógico, lo que lleva a distribuciones de recompensas más equilibradas y a un rendimiento superior al método de recompensas de referencia. El modelo alineado transformado supera la línea de base en los casos de mejor k y bajo KL, mientras que en los casos de alto KL, la recompensa transformada supera dramáticamente la línea base de recompensa bruta. Los experimentos realizados en el estudio proporcionan evidencia de la eficacia de los métodos mencionados para mejorar la adaptación de los modelos lingüísticos a las preferencias humanas.
En conclusión, la investigación propone una técnica para alinear los modelos lingüísticos con las preferencias humanas, centrándose en mejorar los resultados con bajo rendimiento y permitiendo la agregación de recompensas basada en principios. La transformación de recompensas aprendida de los modelos de preferencia de Bradley-Terry tiene dos propiedades esenciales: mejora los resultados de bajo rendimiento y permite la agregación de recompensas basada en principios. Los experimentos realizados con RLHF demuestran mejoras sustanciales con respecto al enfoque de referencia, lo que demuestra la eficacia de los métodos propuestos. Enfatiza la importancia de considerar tanto la utilidad como la inocuidad al alinear los modelos de lenguaje, y los métodos desarrollados brindan un enfoque prometedor para lograr esta alineación combinando múltiples modelos de recompensa y utilizando conjunciones lógicas en la agregación de recompensas.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.