En la actualidad existen muchos métodos para alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas. El aprendizaje por refuerzo con retroalimentación humana (RLHF) fue uno de los primeros y nos trajo ChatGPT, pero RLHF es muy costoso. DPO, IPO y KTO son notablemente más baratos que RLHF porque no necesitan un modelo de recompensa.
Si bien DPO e IPO son más baratos, aún requieren entrenar dos modelos diferentes. Un modelo para el paso de ajuste fino supervisado (SFT), es decir, entrenar el modelo para responder instrucciones y luego el modelo para alinearse con las preferencias humanas utilizando el modelo SFT para la inicialización y como referencia.
ORPO es otro método nuevo para la alineación LLM, pero este ni siquiera necesita el modelo SFT. Con ORPO, el LLM aprende conjuntamente a responder instrucciones y preferencias humanas.
En este artículo, explico ORPO y reviso su desempeño. Muestro cómo usarlo para convertir Mistral 7B en un modelo de chat usando hardware de consumo.
ORPO se presenta en este artículo:
ORPO: Optimización de preferencias monolíticas sin modelo de referencia