Screenshot 2024 01 22 At 7.16.54 Pm.png

Los modelos futuros deben recibir una retroalimentación superior para que las señales de entrenamiento sean efectivas y así avanzar en el desarrollo de agentes sobrehumanos. Los métodos actuales a menudo derivan modelos de recompensa a partir de las preferencias humanas, pero las limitaciones del desempeño humano limitan este proceso. Depender de modelos de recompensa fija impide la capacidad de mejorar el aprendizaje durante la formación del modelo de lenguaje grande (LLM). Superar estos desafíos es crucial para lograr avances en la creación de agentes con capacidades que superen el desempeño humano.

Aprovechar los datos de preferencias humanas mejora significativamente la capacidad de los LLM para seguir instrucciones de manera efectiva, como lo demuestran estudios recientes. El aprendizaje por refuerzo tradicional a partir de la retroalimentación humana (RLHF) implica aprender un modelo de recompensa a partir de las preferencias humanas, que luego se fija y se emplea para la capacitación LLM utilizando métodos como la optimización de políticas próximas (PPO). Una alternativa emergente, la optimización de preferencias directas (DPO), omite el paso de capacitación del modelo de recompensa y utiliza directamente las preferencias humanas para la capacitación de LLM. Sin embargo, ambos enfoques enfrentan limitaciones relacionadas con la escala y la calidad de los datos de preferencia humana disponibles, y el RLHF está además limitado por la calidad del modelo de recompensa congelada.

Investigadores de Meta y la Universidad de Nueva York han propuesto un enfoque novedoso llamado Modelos de lenguaje autogratificantes, con el objetivo de superar los obstáculos de los métodos tradicionales. A diferencia de los modelos de recompensa congelados, su proceso implica entrenar un modelo de recompensa de mejora automática que se actualiza continuamente durante la alineación del LLM. Al integrar el seguimiento de instrucciones y el modelado de recompensas en un solo sistema, el modelo genera y evalúa sus ejemplos, refinando las habilidades de seguimiento de instrucciones y modelado de recompensas.

Modelos de lenguaje autogratificantes Comience con un modelo de lenguaje previamente entrenado y un conjunto limitado de datos anotados por humanos. El modelo está diseñado para sobresalir simultáneamente en dos habilidades clave: i) seguimiento de instrucciones y ii) creación de autoinstrucción. El modelo autoevalúa las respuestas generadas a través del mecanismo LLM como juez, eliminando la necesidad de un modelo de recompensa externo. El proceso iterativo de autoalineación implica desarrollar nuevas indicaciones, evaluar respuestas y actualizar el modelo mediante AI Feedback Training. Este enfoque mejora el seguimiento de instrucciones y mejora la capacidad de modelado de recompensas del modelo en iteraciones sucesivas, desviándose de los modelos tradicionales de recompensa fija.

Los modelos de lenguaje autogratificante demuestran mejoras significativas en el seguimiento de la instrucción y el modelado de recompensas. Las iteraciones de entrenamiento muestran mejoras sustanciales en el rendimiento, superando a las iteraciones anteriores y a los modelos de referencia. Los modelos autocompensados ​​exhiben un desempeño competitivo en la clasificación de AlpacaEval 2.0, superando a los modelos existentes (Claude 2, Gemini Pro y GPT4) con datos de alineación patentados. La eficacia del método radica en su capacidad para mejorar de forma iterativa el seguimiento de instrucciones y el modelado de recompensas, proporcionando una vía prometedora para la superación personal en los modelos de lenguaje. Se ha demostrado que el entrenamiento del modelo es superior a enfoques alternativos que se basan únicamente en ejemplos positivos.

Los investigadores de Meta y la Universidad de Nueva York introdujeron modelos de lenguaje autogratificantes capaces de autoalineación iterativa generando y juzgando sus datos de entrenamiento. El modelo asigna recompensas a sus generaciones a través de indicaciones de LLM como juez y DPO iterativo, mejorando tanto las capacidades de seguimiento de instrucciones como de modelado de recompensas en las iteraciones. Si bien reconoce la naturaleza preliminar del estudio, el enfoque presenta una vía de investigación interesante, que sugiere una mejora continua más allá de los modelos tradicionales de recompensa basados ​​en las preferencias humanas en el entrenamiento de modelos de lenguaje.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.