ORPO: Optimización de preferencias sin el paso de ajuste fino supervisado (SFT)

Un método de alineación mucho más económico que funciona tan bien como DPO

En la actualidad existen muchos métodos para alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas. El aprendizaje por refuerzo con retroalimentación humana (RLHF) fue uno de los primeros y nos trajo ChatGPT, pero RLHF es muy costoso. DPO, IPO y KTO son notablemente más baratos que RLHF porque no necesitan un modelo de recompensa.

Si bien DPO e IPO son más baratos, aún requieren entrenar dos modelos diferentes. Un modelo para el paso de ajuste fino supervisado (SFT), es decir, entrenar el modelo para responder instrucciones y luego el modelo para alinearse con las preferencias humanas utilizando el modelo SFT para la inicialización y como referencia.

ORPO es otro método nuevo para la alineación LLM, pero este ni siquiera necesita el modelo SFT. Con ORPO, el LLM aprende conjuntamente a responder instrucciones y preferencias humanas.

En este artículo, explico ORPO y reviso su desempeño. Muestro cómo usarlo para convertir Mistral 7B en un modelo de chat usando hardware de consumo.

ORPO se presenta en este artículo:

ORPO: Optimización de preferencias monolíticas sin modelo de referencia

ORPO: Optimización de preferencias sin el paso de ajuste fino supervisado (SFT)

ByEquipo de 7 minutos

Un método de alineación mucho más económico que funciona tan bien como DPO

By Equipo de 7 minutos

Related Post

Un nuevo estudio de Harvard y Perplexity encuentra que los agentes de IA realizan 26 minutos de trabajo autónomo por sesión frente a 33 segundos para la búsqueda

Tutorial de NVIDIA cuTile Python: creación de núcleos de GPU en mosaico para la suma de vectores, la suma de matrices y la multiplicación de matrices en Colab

4 nuevas técnicas para maximizar el código Claude

You missed

Un nuevo estudio de Harvard y Perplexity encuentra que los agentes de IA realizan 26 minutos de trabajo autónomo por sesión frente a 33 segundos para la búsqueda

El Homo Erectus que habita en cavernas puede haber quemado restos de bolitas de búho hace casi 1,8 millones de años

Ted Cruz estrena ataque impotente a James Talarico

Un enfoque de deporte de equipo para la resiliencia