Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han ganado una atención significativa en el campo de la inteligencia artificial, principalmente debido a su capacidad de imitar el conocimiento humano a través de conjuntos de datos extensos. Las metodologías actuales para entrenar estos modelos se basan en gran medida en el aprendizaje por imitación, en particular la predicción del siguiente token mediante la estimación de máxima verosimilitud (MLE, por sus siglas en inglés) durante las fases de preentrenamiento y ajuste fino supervisado. Sin embargo, este enfoque enfrenta varios desafíos, incluidos los errores de composición en los modelos autorregresivos, el sesgo de exposición y los cambios de distribución durante la aplicación iterativa del modelo. Estos problemas se vuelven más pronunciados con secuencias más largas, lo que potencialmente conduce a un rendimiento degradado y a una falta de alineación con la intención humana. A medida que avanza el campo, existe una creciente necesidad de abordar estos desafíos y desarrollar métodos más efectivos para entrenar y alinear los LLM con las preferencias e intenciones humanas.
Los intentos existentes para abordar los desafíos en el entrenamiento de modelos de lenguaje se han centrado principalmente en dos enfoques principales: clonación conductual (BC) y aprendizaje de refuerzo inverso (IRL). BC, análogo al ajuste fino supervisado a través de MLE, imita directamente las demostraciones de expertos pero sufre de errores compuestos y requiere una amplia cobertura de datos. IRL, por otro lado, infiere conjuntamente la política y la función de recompensa, superando potencialmente las limitaciones de BC al utilizar interacciones ambientales adicionales. Los métodos IRL recientes han incorporado enfoques de teoría de juegos, regularización de entropía y varias técnicas de optimización para mejorar la estabilidad y la escalabilidad. En el contexto del modelado de lenguaje, algunos investigadores han explorado métodos de entrenamiento adversarial, como SeqGAN, como alternativas a MLE. Sin embargo, estos enfoques han demostrado un éxito limitado, funcionando eficazmente solo en regímenes de temperatura específicos. A pesar de estos esfuerzos, el campo continúa buscando soluciones más sólidas y escalables para entrenar y alinear modelos de lenguaje grandes.
Los investigadores de DeepMind proponen una investigación en profundidad de la optimización basada en RL, centrándose particularmente en la perspectiva de coincidencia de distribución de IRL, para ajustar modelos de lenguaje grandes. Este enfoque tiene como objetivo proporcionar una alternativa eficaz al MLE estándar. El estudio abarca métodos adversariales y no adversariales, así como técnicas en línea y fuera de línea. Una innovación clave es la extensión de aprendizaje Q suave inverso para establecer una conexión de principios con la clonación de conducta clásica o MLE. La investigación evalúa modelos que van desde 250M a 3B parámetros, incluyendo arquitecturas de codificador-decodificador T5 y decodificador solamente PaLM2. Al examinar el desempeño de la tarea y la diversidad de generación, el estudio busca demostrar los beneficios del IRL sobre la clonación de conducta en el aprendizaje por imitación para modelos de lenguaje. Además de eso, la investigación explora el potencial de las funciones de recompensa obtenidas en IRL para cerrar la brecha con etapas posteriores de RLHF.
La metodología propuesta introduce un enfoque único para el ajuste fino del modelo de lenguaje al reformular el aprendizaje Q suave inverso como una extensión regularizada por diferencias temporales del aprendizaje automático. Este método cierra la brecha entre el aprendizaje automático y los algoritmos que explotan la naturaleza secuencial de la generación del lenguaje.
El enfoque modela la generación de lenguaje como un problema de toma de decisiones secuencial, donde la generación del siguiente token está condicionada a la secuencia generada previamente. Los investigadores se centran en minimizar la divergencia entre la distribución de estado-acción descontada por γ de la política y la de la política experta, combinada con un término de entropía causal ponderada.
La formulación utiliza la divergencia χ2 y reescala la función de valor, lo que da como resultado el objetivo de IQLearn:
Este objetivo consta de dos componentes principales:
1. Un término de regularización que acopla la política aprendida a una función de valor, favoreciendo las políticas donde la probabilidad logarítmica de las acciones coincide con la diferencia en los valores del estado.
2. Un término MLE que mantiene la conexión con el entrenamiento del modelo de lenguaje tradicional.
Es importante destacar que esta formulación permite el recocido del término de regularización, lo que brinda flexibilidad para equilibrar entre el MLE estándar (λ = 0) y la regularización más fuerte. Este enfoque permite el entrenamiento fuera de línea utilizando solo muestras de expertos, lo que mejora potencialmente la eficiencia computacional en el ajuste fino de modelos de lenguaje a gran escala.
Los investigadores realizaron experimentos exhaustivos para evaluar la eficacia de los métodos IRL en comparación con MLE para ajustar modelos lingüísticos de gran tamaño. Sus resultados demuestran varias conclusiones clave:
1. Mejoras en el rendimiento: los métodos de la vida real, en particular IQLearn, mostraron mejoras pequeñas pero notables en el rendimiento de las tareas en varios puntos de referencia, incluidos XSUM, GSM8k, TLDR y WMT22. Estas mejoras fueron especialmente pronunciadas en las tareas de matemáticas y razonamiento.
2. Mejora de la diversidad: IQLearn produjo sistemáticamente generaciones de modelos más diversas en comparación con MLE, como se mide por las puntuaciones Self-BLEU más bajas. Esto indica una mejor relación entre el desempeño de la tarea y la diversidad de resultados.
3. Escalabilidad del modelo: Se observaron los beneficios de los métodos IRL en diferentes tamaños y arquitecturas de modelos, incluidos los modelos T5 (base, grande y xl) y PaLM2.
4. Sensibilidad a la temperatura: para los modelos PaLM2, IQLearn logró un mayor rendimiento en regímenes de muestreo de baja temperatura en todas las tareas probadas, lo que sugiere una estabilidad mejorada en la calidad de la generación.
5. Menor dependencia de la búsqueda de haz: IQLearn demostró la capacidad de reducir la dependencia de la búsqueda de haz durante la inferencia manteniendo el rendimiento, lo que potencialmente ofrece ganancias en la eficiencia computacional.
6. Rendimiento de GAIL: si bien se estabilizó para los modelos T5, GAIL resultó difícil de implementar de manera efectiva para los modelos PaLM2, lo que resalta la solidez del enfoque IQLearn.
Estos resultados sugieren que los métodos IRL, particularmente IQLearn, proporcionan una alternativa escalable y efectiva a MLE para ajustar modelos de lenguaje grandes, ofreciendo mejoras tanto en el rendimiento de tareas como en la diversidad de generación en una variedad de tareas y arquitecturas de modelos.
Este artículo investiga el potencial de los algoritmos IRL para el ajuste fino de modelos lingüísticos, centrándose en el rendimiento, la diversidad y la eficiencia computacional. Los investigadores presentan un algoritmo IQLearn reformulado, que permite un enfoque equilibrado entre el ajuste fino supervisado estándar y los métodos IRL avanzados. Los experimentos revelan mejoras significativas en el equilibrio entre el rendimiento de la tarea y la diversidad de generación utilizando IRL. El estudio demuestra principalmente que el IRL fuera de línea computacionalmente eficiente logra ganancias de rendimiento sustanciales sobre la optimización basada en MLE sin requerir muestreo en línea. Además, el análisis de correlación entre las recompensas extraídas de IRL y las métricas de rendimiento sugiere el potencial para desarrollar funciones de recompensa más precisas y sólidas en el modelado lingüístico, allanando el camino para un mejor entrenamiento y alineación de modelos lingüísticos.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.