Screenshot 2024 01 21 At 7.33.00 Pm.png

La alineación se ha convertido en una preocupación fundamental para el desarrollo de asistentes basados ​​en texto de próxima generación, particularmente para garantizar que los modelos de lenguaje grandes (LLM) se alineen con los valores humanos. Esta alineación tiene como objetivo mejorar la precisión, coherencia e inocuidad del contenido generado por LLM en respuesta a las consultas de los usuarios. El proceso de alineación comprende tres elementos clave: adquisición de retroalimentación, algoritmos de alineación y evaluación de modelos. Si bien los esfuerzos anteriores se centraron en algoritmos de alineación, este estudio profundiza en los matices de la adquisición de retroalimentación, comparando específicamente calificaciones y protocolos de clasificación, arrojando luz sobre un importante desafío de coherencia.

En la literatura existente, los algoritmos de alineación como PPO, DPO y PRO se han explorado ampliamente bajo protocolos de retroalimentación y configuraciones de evaluación específicos. Mientras tanto, las estrategias de adquisición de retroalimentación se han concentrado en desarrollar protocolos densos y detallados, lo que puede resultar desafiante y costoso. Este estudio analiza el impacto de dos protocolos de retroalimentación, calificaciones y clasificaciones, en la alineación del LLM. La Figura 1 proporciona una ilustración de su canalización.

Comprensión de los protocolos de retroalimentación: calificaciones versus clasificaciones

Las calificaciones implican asignar un valor absoluto a una respuesta utilizando una escala predefinida, mientras que las clasificaciones requieren que los anotadores seleccionen su respuesta preferida de un par. Las calificaciones cuantifican la bondad de las respuestas, pero pueden ser un desafío para instrucciones complejas, mientras que las clasificaciones son más fáciles para este tipo de instrucciones pero carecen de cuantificación de la brecha entre las respuestas.Listado en la Tabla 1).

Ahora profundizaremos en el problema de inconsistencia de la retroalimentación inicialmente anunciado. Los autores hacen uso de la observación de que las calificaciones de un par de respuestas para una instrucción determinada se pueden comparar para convertir los datos de retroalimentación de calificaciones en su forma de clasificación. Esta conversión de los datos de calificaciones DA a los datos del ranking DRA nos brinda una oportunidad única para estudiar la interacción entre la retroalimentación absoluta DA y retroalimentación relativa DR recopilados de los anotadores, de forma independiente. Aquí, definen el término coherencia como la concordancia entre las calificaciones (convertidas a su forma de clasificación) y las clasificaciones recibidas por un par de respuestas a una instrucción determinada, independientemente de los datos de las calificaciones.

Podemos observar claramente problemas de coherencia en las Tablas 3 y 4 en los datos de retroalimentación tanto humanos como de IA. Curiosamente, la puntuación de coherencia se sitúa dentro de un rango similar del 40 % al 42 % tanto para los humanos como para la IA, lo que sugiere que una parte sustancial de los datos de retroalimentación pueden generar preferencias contradictorias según el protocolo de retroalimentación empleado. Este problema de coherencia subraya varios puntos críticos: (a) indica variaciones en la calidad percibida de las respuestas según la elección de los protocolos de adquisición de retroalimentación, (b) subraya que el proceso de alineación puede variar significativamente dependiendo de si se utilizan calificaciones o clasificaciones. como formas escasas de retroalimentación, y (c) enfatiza la necesidad de una curación meticulosa de los datos cuando se trabaja con múltiples protocolos de retroalimentación para alinear los LLM.

Explorando la inconsistencia de la retroalimentación:

El estudio profundiza en el problema de inconsistencia de la retroalimentación identificado, aprovechando una observación reveladora. Al comparar las calificaciones de un par de respuestas, los autores convierten los datos de retroalimentación de calificación (DA) en datos de clasificación (DRA). Esta conversión ofrece una oportunidad única para estudiar de forma independiente la interacción entre la retroalimentación absoluta (DA) y retroalimentación relativa (DR) de los anotadores. Se evalúa la coherencia, definida como la concordancia entre las calificaciones convertidas y las clasificaciones originales. En particular, las Tablas 3 y 4 revelan problemas constantes en la retroalimentación humana y de la IA, con un rango de puntuación de coherencia notable del 40 % al 42 %. Esto subraya las variaciones en la calidad de la respuesta percibida según los protocolos de adquisición de retroalimentación, destacando el impacto significativo en el proceso de alineación y enfatizando la necesidad de una curación meticulosa de los datos al manejar diversos protocolos de retroalimentación en la alineación de los LLM.

Adquisición de datos de retroalimentación

El estudio utiliza diversas instrucciones de fuentes como Dolly, Autoinstrucciones y Super-NI para recopilar comentarios. Alpaca-7B sirve como LLM base, generando respuestas de los candidatos para su evaluación. Los autores aprovechan GPT-3.5-Turbo para recopilar datos de calificaciones y valoraciones a gran escala. También recopilan datos de retroalimentación según los protocolos de calificaciones y clasificaciones.

Análisis de distribución de calificaciones (mostrado en la Figura 2) indica que los anotadores humanos tienden a otorgar puntuaciones más altas, mientras que la retroalimentación de la IA es más equilibrada. El estudio también garantiza que los datos de retroalimentación no estén sesgados hacia respuestas más largas o únicas. Análisis de acuerdos (mostrado en la Tabla 2) entre la retroalimentación humano-humano y humano-IA muestra tasas de alineación razonables. En resumen, los resultados del acuerdo indican que GPT-3.5-Turbo puede proporcionar calificaciones y clasificaciones cercanas a la etiqueta dorada de los humanos para las respuestas a las instrucciones de nuestro conjunto de datos.

Impacto en la alineación y evaluación del modelo

El estudio entrena modelos de recompensa basados ​​en calificaciones y comentarios de clasificaciones y evalúa las políticas Best-of-n. La evaluación según instrucciones invisibles revela que las políticas Best-of-n, especialmente con comentarios de clasificación, superan al LLM base (SFT) y demuestran una mejora en la alineación (se muestra en la Figura 3).

Una revelación sorprendente en el estudio revela un fenómeno de inconsistencia en la evaluación, donde la elección del protocolo de retroalimentación durante la evaluación parece favorecer el algoritmo de alineación que se alinea con el mismo protocolo de retroalimentación. En particular, la brecha en las tasas de ganancia entre la política Best of n (clasificaciones) y la SFT es más pronunciada (11,2%) que la brecha observada entre la política Best of n (calificaciones) y la SFT (5,3%) en El protocolo de clasificación. Por el contrario, según el protocolo de calificación, la brecha entre la política Best of n (calificaciones) y SFT (5%) supera ligeramente la brecha entre la política Best of n (clasificaciones) y SFT (4,3%). Esta inconsistencia se extiende a las evaluaciones que involucran GPT-3.5-Turbo, lo que indica una percepción matizada de la calidad de la respuesta de las políticas por parte de los anotadores (tanto humanos como de IA) bajo distintos protocolos de retroalimentación. Estos hallazgos subrayan las implicaciones sustanciales para los profesionales, destacando que el protocolo de adquisición de retroalimentación influye significativamente en cada etapa del proceso de alineación.

En conclusión, el estudio subraya la importancia primordial de una meticulosa conservación de datos dentro de protocolos de retroalimentación escasos, arrojando luz sobre las posibles repercusiones de las elecciones de protocolos de retroalimentación en los resultados de la evaluación. En la búsqueda de la alineación del modelo, futuras líneas de investigación pueden profundizar en los aspectos cognitivos del problema de consistencia identificado, con el objetivo de mejorar las estrategias de alineación. Explorar formas más ricas de retroalimentación más allá del alcance de las preferencias absolutas y relativas es crucial para una comprensión más integral y una mejor alineación en diversos dominios de aplicaciones. A pesar de sus valiosos conocimientos, el estudio reconoce limitaciones, incluido su enfoque en tipos específicos de retroalimentación, la subjetividad potencial en las anotaciones humanas y la necesidad de explorar el impacto en diferentes grupos demográficos y dominios especializados. Abordar estas limitaciones contribuirá a desarrollar metodologías de alineación más sólidas y universalmente aplicables en el panorama cambiante de la inteligencia artificial.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.