ORPO: Optimización de preferencias sin el paso de ajuste fino supervisado (SFT)

Un método de alineación mucho más económico que funciona tan bien como DPO

Generado con DALL-E

En la actualidad existen muchos métodos para alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas. El aprendizaje por refuerzo con retroalimentación humana (RLHF) fue uno de los primeros y nos trajo ChatGPT, pero RLHF es muy costoso. DPO, IPO y KTO son notablemente más baratos que RLHF porque no necesitan un modelo de recompensa.

Si bien DPO e IPO son más baratos, aún requieren entrenar dos modelos diferentes. Un modelo para el paso de ajuste fino supervisado (SFT), es decir, entrenar el modelo para responder instrucciones y luego el modelo para alinearse con las preferencias humanas utilizando el modelo SFT para la inicialización y como referencia.

ORPO es otro método nuevo para la alineación LLM, pero este ni siquiera necesita el modelo SFT. Con ORPO, el LLM aprende conjuntamente a responder instrucciones y preferencias humanas.

En este artículo, explico ORPO y reviso su desempeño. Muestro cómo usarlo para convertir Mistral 7B en un modelo de chat usando hardware de consumo.

ORPO se presenta en este artículo:

ORPO: Optimización de preferencias monolíticas sin modelo de referencia