ORPO: Optimización de preferencias sin el paso de ajuste fino supervisado (SFT)

Un método de alineación mucho más económico que funciona tan bien como DPO

En la actualidad existen muchos métodos para alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas. El aprendizaje por refuerzo con retroalimentación humana (RLHF) fue uno de los primeros y nos trajo ChatGPT, pero RLHF es muy costoso. DPO, IPO y KTO son notablemente más baratos que RLHF porque no necesitan un modelo de recompensa.

Si bien DPO e IPO son más baratos, aún requieren entrenar dos modelos diferentes. Un modelo para el paso de ajuste fino supervisado (SFT), es decir, entrenar el modelo para responder instrucciones y luego el modelo para alinearse con las preferencias humanas utilizando el modelo SFT para la inicialización y como referencia.

ORPO es otro método nuevo para la alineación LLM, pero este ni siquiera necesita el modelo SFT. Con ORPO, el LLM aprende conjuntamente a responder instrucciones y preferencias humanas.

En este artículo, explico ORPO y reviso su desempeño. Muestro cómo usarlo para convertir Mistral 7B en un modelo de chat usando hardware de consumo.

ORPO se presenta en este artículo:

ORPO: Optimización de preferencias monolíticas sin modelo de referencia

ORPO: Optimización de preferencias sin el paso de ajuste fino supervisado (SFT)

ByEquipo de 7 minutos

Un método de alineación mucho más económico que funciona tan bien como DPO

By Equipo de 7 minutos

Related Post

Tutorial de NVIDIA cuTile Python: creación de núcleos de GPU en mosaico para la suma de vectores, la suma de matrices y la multiplicación de matrices en Colab

4 nuevas técnicas para maximizar el código Claude

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

You missed

Un astronauta captura auroras con forma de serpiente en una fotografía del Dragon de SpaceX del día 9 de junio de 2026

Israel ataca el sur del Líbano después de que Irán emitiera una advertencia

Cumbre financiera de Zúrich para abordar la IA y la regulación

El tiempo en Mallorca para el miércoles diez de junio