RLAIF: Aprendizaje reforzado a partir de comentarios de IA | por Cameron R. Wolfe, Ph.D.

Hacer que la alineación a través de RLHF sea más escalable mediante la automatización de la retroalimentación humana…

(Foto por Mono rock’n roll en desempaquetar)

Más allá del uso de modelos y conjuntos de datos más grandes para el entrenamiento previo, el drástico aumento en la calidad de los modelos de lenguaje grande (LLM) se ha debido a avances en el proceso de alineación, que en gran medida está siendo impulsado por técnicas de ajuste como el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo de retroalimentación humana (RLHF). RLHF en particular es una técnica interesante, ya que nos permite ajustar directamente un modelo de lenguaje basado en las preferencias humanas. En pocas palabras, podemos enseñarle al modelo a producir los resultados que los humanos prefieren, lo cual es un marco flexible y poderoso. Sin embargo, requiere que se recopile una gran cantidad de etiquetas de preferencias humanas, lo que puede resultar costoso y llevar mucho tiempo. En esta descripción general, exploraremos investigaciones recientes que tienen como objetivo automatizar la recopilación de preferencias humanas para RLHF utilizando IA, formando una nueva técnica conocida como aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF).

El proceso de formación del modelo lingüístico avanza en varias fases; véase más arriba. Primero, entrenamos previamente el modelo sobre un gran corpus de datos textuales sin etiquetar, que es la parte más costosa del entrenamiento. Después del entrenamiento previo, realizamos un proceso de alineación de tres partes, que incluye tanto el ajuste fino supervisado (SFT) como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF); vea abajo. La alineación mediante SFT/RLHF se utilizó en [10] para resumir texto con LLM y explorado para mejorar las capacidades de seguimiento de instrucciones en LLM genéricos por InstructGPT [11], la modelo hermana de ChatGPT. Desde entonces, este enfoque se ha estandarizado y lo utilizan una variedad de modelos potentes.

Más sobre RLHF. En esta descripción general, nos centraremos principalmente en la fase de alineación de RLHF, que ajusta el LLM directamente en función de la retroalimentación humana. En pocas palabras, los humanos identifican los resultados que prefieren y el LLM aprende a producir más resultados como este. Más específicamente, nosotros i) obtener un conjunto de indicaciones para usar en RLHF, ii) generar dos o más respuestas a cada mensaje con nuestro modelo de lenguaje, y iii)…

RLAIF: Aprendizaje reforzado a partir de comentarios de IA | por Cameron R. Wolfe, Ph.D. | enero de 2024

ByEquipo de 7 minutos

Hacer que la alineación a través de RLHF sea más escalable mediante la automatización de la retroalimentación humana…

By Equipo de 7 minutos

Related Post

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

You missed

Los pájaros cantores revelan el lado oscuro de la producción de nuevas células cerebrales en la edad adulta

Ricard Farín se impone a Rosa Suriñach

Victorias en conservación: restauración de guardianes de praderas e historias de éxito de mamíferos en peligro de extinción

La startup sueca de semiconductores AlixLabs cierra la Serie A de 15 millones de euros para escalar la tecnología de grabado a nivel atómico