Screenshot 2024 06 03 At 10.50.59 Pm.png

Los modelos de lenguaje grande (LLM) han avanzado significativamente en los últimos tiempos, principalmente debido a su mayor capacidad para seguir órdenes humanas de manera eficiente. El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es la técnica principal para hacer coincidir los LLM con la intención humana. Este método opera optimizando una función de recompensa, que puede reparametrizarse dentro de la política del LLM o ser un modelo independiente.

Para derivar esta función de recompensa se utilizan datos sobre las preferencias humanas por pares de respuesta rápida. La variedad de respuestas encontradas en los datos de preferencias es un componente crítico de la efectividad de esta alineación. Esta diversidad facilita el desarrollo de modelos lingüísticos más adaptables y potentes al evitar que los modelos de recompensa queden atrapados en óptimos locales.

La alineación se puede realizar principalmente en línea o fuera de línea. La alineación sin conexión hace un esfuerzo por generar manualmente una variedad de respuestas para mensajes predeterminados. Sin embargo, este enfoque no tiene mucho éxito a la hora de cubrir la amplia gama de posibilidades del lenguaje natural. Por el contrario, la alineación en línea emplea un procedimiento iterativo en el que se generan nuevos datos de preferencias para entrenar el modelo de recompensa a través de la retroalimentación tras el muestreo de respuestas del LLM.

En este enfoque, el muestreo es aleatorio, por lo que se pueden explorar regiones fuera de distribución (OOD). Por otro lado, el único objetivo del LLM en la mayoría de las configuraciones de RLHF en línea es maximizar la recompensa esperada de los datos que se recopilan. Debido a la exploración pasiva, esto frecuentemente resulta en respuestas que se agrupan alrededor de óptimos locales, lo que puede causar un sobreajuste y una convergencia prematura, dejando regiones de alta recompensa sin explorar.

La optimización de preferencias ha demostrado una gran eficacia a la hora de alinear los modelos de lenguajes grandes (LLM) con los objetivos humanos, especialmente cuando se aplica con el aprendizaje por refuerzo a partir de la retroalimentación humana. La recopilación de comentarios en línea, de humanos o de IA, sobre los resultados del modelo generalmente conduce a modelos de recompensa más capaces y LLM mejor alineados a través de un proceso iterativo. Esto contrasta con la alineación fuera de línea, que depende de un conjunto de datos fijo. Sin embargo, desarrollar un modelo de recompensa globalmente preciso requiere un estudio metódico para producir una variedad de respuestas en el vasto campo del lenguaje natural. Esta condición no se puede cumplir simplemente utilizando un muestreo aleatorio de LLM ordinarios que maximizan la recompensa.

Para abordar este problema, se ha propuesto un objetivo de dos niveles que está sesgado de manera optimista hacia respuestas potencialmente de alta recompensa. Este método investiga activamente regiones que están fuera de distribución (OOD). El enfoque resultante, llamado Modelos de lenguaje de autoexploración (SELM), resuelve el problema de nivel interno con una función de recompensa reparametrizada, eliminando el requisito de un modelo de recompensa separado y actualizando el LLM repetidamente con un objetivo simple.

El SELM tiene como objetivo mejorar la eficiencia de la exploración y disminuir el favorecimiento indiscriminado de extrapolaciones invisibles en comparación con la Optimización de Preferencia Directa (DPO). Según los hallazgos experimentales, SELM puede mejorar en gran medida el rendimiento en puntos de referencia de seguimiento de instrucciones como MT-Bench y AlpacaEval 2.0 cuando se modifica en los modelos Zephyr-7B-SFT y Llama-3-8B-Instruct. SELM también se desempeña bien en una variedad de estándares académicos comunes en diversos contextos.

En conclusión, al garantizar que los LLM no solo obedezcan instrucciones con precisión sino que también consideren una amplia gama de respuestas posibles, este enfoque marca un avance sustancial en la comparación de los LLM con la intención humana y eventualmente dará como resultado modelos lingüísticos más capaces y confiables.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.