Screenshot 2024 01 27 At 1.42.11 Pm.png

En la alineación del modelo de lenguaje, la eficacia del aprendizaje reforzado a partir de la retroalimentación humana (RLHF) depende de la excelencia del modelo de recompensa subyacente. Una preocupación fundamental es garantizar la alta calidad de este modelo de recompensa, ya que influye significativamente en el éxito de las aplicaciones RLHF. El desafío radica en desarrollar un modelo de recompensa que refleje con precisión las preferencias humanas, un factor crítico para lograr un rendimiento y una alineación óptimos en los modelos de lenguaje.

Los avances recientes en los modelos de lenguaje grande (LLM) se han visto facilitados al alinear su comportamiento con los valores humanos. RLHF, una estrategia predominante, guía los modelos hacia los resultados preferidos al definir una función de pérdida matizada que refleja la calidad subjetiva del texto. Sin embargo, modelar con precisión las preferencias humanas implica una costosa recopilación de datos. La calidad de los modelos de preferencia depende de la cantidad de retroalimentación, la distribución de las respuestas y la precisión de las etiquetas.

Los investigadores de ETH Zurich, el Instituto Max Planck de Sistemas Inteligentes de Tubinga y Google Research han presentado Oeste de N: Generación de preferencias sintéticas para el modelado de recompensas mejorado, un método novedoso para mejorar la calidad del modelo de recompensa mediante la incorporación de datos de preferencias sintéticas en el conjunto de datos de entrenamiento. Aprovechando el éxito de las estrategias de muestreo Best-of-N en el entrenamiento de modelos de lenguaje, amplían este enfoque para recompensar el entrenamiento de modelos. La estrategia de autoformación propuesta genera pares de preferencias seleccionando los mejores y peores candidatos de grupos de respuestas a consultas específicas.

El método West-of-N propuesto genera datos de preferencia sintéticos seleccionando las mejores y peores respuestas a una consulta determinada de la política del modelo lingüístico. Inspirada en las estrategias de muestreo Best-of-N, esta estrategia de autoformación mejora significativamente el rendimiento del modelo de recompensa, comparable al impacto de incorporar una cantidad similar de datos de preferencias humanas. El enfoque se detalla en el Algoritmo 1, que incluye una garantía teórica de etiquetado correcto para los pares de preferencias generados. Los pasos de filtrado basados ​​en la confianza del modelo y la distribución de respuestas mejoran aún más la calidad de los datos generados.

El estudio evalúa la Oeste de N Método de generación de datos de preferencias sintéticas en Reddit TL;DR, resumen y conjuntos de datos de diálogo antrópico útil e inofensivo. Los resultados indican que West-of-N mejora significativamente el rendimiento del modelo de recompensa, superando las ganancias de datos adicionales de retroalimentación humana y superando a otros métodos sintéticos de generación de preferencias como RLAIF y RLCD. Oeste de N mejora constantemente la precisión del modelo, el muestreo Best-of-N y el ajuste fino de RL en diferentes tipos de preferencias base, lo que demuestra su eficacia en la alineación del modelo de lenguaje.

Para concluir, los investigadores de Google Research y otras instituciones han propuesto una estrategia eficaz, Oeste de N, para mejorar el rendimiento del modelo de recompensa (RM) en RLHF. Los resultados experimentales muestran la eficacia del método en diversos conjuntos de datos y datos de preferencia inicial. El estudio destaca el potencial del muestreo Best-of-N y el aprendizaje semisupervisado para el modelado de preferencias. Además, sugirieron explorar más métodos como el entrenamiento de estudiantes ruidosos para elevar el rendimiento de RM junto con West-of-N.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.