Hacer que la alineación a través de RLHF sea más escalable mediante la automatización de la retroalimentación humana…
Más allá del uso de modelos y conjuntos de datos más grandes para el entrenamiento previo, el drástico aumento en la calidad de los modelos de lenguaje grande (LLM) se ha debido a avances en el proceso de alineación, que en gran medida está siendo impulsado por técnicas de ajuste como el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo de retroalimentación humana (RLHF). RLHF en particular es una técnica interesante, ya que nos permite ajustar directamente un modelo de lenguaje basado en las preferencias humanas. En pocas palabras, podemos enseñarle al modelo a producir los resultados que los humanos prefieren, lo cual es un marco flexible y poderoso. Sin embargo, requiere que se recopile una gran cantidad de etiquetas de preferencias humanas, lo que puede resultar costoso y llevar mucho tiempo. En esta descripción general, exploraremos investigaciones recientes que tienen como objetivo automatizar la recopilación de preferencias humanas para RLHF utilizando IA, formando una nueva técnica conocida como aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF).
El proceso de formación del modelo lingüístico avanza en varias fases; véase más arriba. Primero, entrenamos previamente el modelo sobre un gran corpus de datos textuales sin etiquetar, que es la parte más costosa del entrenamiento. Después del entrenamiento previo, realizamos un proceso de alineación de tres partes, que incluye tanto el ajuste fino supervisado (SFT) como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF); vea abajo. La alineación mediante SFT/RLHF se utilizó en [10] para resumir texto con LLM y explorado para mejorar las capacidades de seguimiento de instrucciones en LLM genéricos por InstructGPT [11], la modelo hermana de ChatGPT. Desde entonces, este enfoque se ha estandarizado y lo utilizan una variedad de modelos potentes.
Más sobre RLHF. En esta descripción general, nos centraremos principalmente en la fase de alineación de RLHF, que ajusta el LLM directamente en función de la retroalimentación humana. En pocas palabras, los humanos identifican los resultados que prefieren y el LLM aprende a producir más resultados como este. Más específicamente, nosotros i) obtener un conjunto de indicaciones para usar en RLHF, ii) generar dos o más respuestas a cada mensaje con nuestro modelo de lenguaje, y iii)…