El problema de la optimización excesiva de la probabilidad en los algoritmos de alineación directa (DAA), como la optimización de preferencias directas (DPO) y la optimización de preferencias de identidad (IPO), surge cuando estos métodos no logran mejorar el rendimiento del modelo a pesar de aumentar la probabilidad de resultados preferidos. Estos algoritmos, que son alternativas al aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), tienen como objetivo alinear los modelos de lenguaje con las preferencias humanas optimizando directamente los resultados deseados sin un modelo de recompensa explícito. Sin embargo, la optimización por sí sola a veces puede degradar el rendimiento del modelo, lo que indica una falla fundamental en el uso de la probabilidad como objetivo principal de alineación.
Investigadores del University College London y Cohere exploran la cuestión de la sobreoptimización de la probabilidad en los DAA de algoritmos de alineación directa de última generación, investigando si aumentar la probabilidad de mejores (es decir, preferidas) terminaciones y minimizar la probabilidad de peores terminaciones conduce a rendimiento mejorado. El estudio revela que una mayor probabilidad no siempre se corresponde con un mejor rendimiento del modelo, particularmente en términos de alineación con las preferencias humanas. En cambio, encuentran que reducir ligeramente la probabilidad tiende a mejorar la diversidad de los resultados del modelo, lo que mejora la generalización a datos invisibles. Además, los investigadores identifican dos indicadores clave que señalan cuándo la sobreoptimización comienza a degradar el rendimiento: la disminución de la entropía sobre los tokens Top-k y la disminución de la masa de probabilidad Top-k.
La estructura de este enfoque de investigación incluye un análisis en profundidad de la relación entre la probabilidad de finalización y las métricas de rendimiento en diferentes DAA. Los investigadores utilizaron dos modelos ajustados por instrucciones (parámetros 7B y 35B) entrenados en el conjunto de datos ULTRAFEEDBACK, que contiene datos de preferencias binarizados. Entrenaron cada modelo utilizando diferentes hiperparámetros para DPO, IPO y una función de pérdida de bisagra, monitoreando la probabilidad logarítmica de terminaciones preferidas. El estudio también empleó esquemas de regularización como Negative Log-Likelihood (NLL) para mitigar la sobreoptimización y evaluó el rendimiento de la generalización utilizando LLM-as-a-Judge, un marco para comparar los resultados del modelo con los de otros modelos líderes.
Los resultados experimentales mostraron que una mayor probabilidad de finalización preferida no necesariamente mejora la probabilidad de ganar en comparación con modelos como GPT-3.5 Turbo. Por ejemplo, tanto el modelo 7B como el 35B mostraron correlaciones débiles entre la probabilidad de finalización y la probabilidad de ganar mejorada, lo que sugiere que una probabilidad de finalización demasiado alta en realidad puede perjudicar el rendimiento del modelo. Además, los modelos con una probabilidad ligeramente reducida de terminaciones preferidas tendieron a exhibir una mayor diversidad de resultados, lo que se correlacionó positivamente con una mejor generalización. Esta mejora fue particularmente significativa durante las primeras etapas de la formación. Es importante destacar que el estudio describió cómo la diversidad excesiva, aunque beneficiosa inicialmente, podría eventualmente degradar el rendimiento del modelo si el modelo comienza a generar resultados demasiado aleatorios.
La conclusión de la investigación enfatiza que mantener un equilibrio óptimo entre aumentar la probabilidad de terminaciones preferidas y promover la diversidad es fundamental para mejorar el rendimiento del modelo. Los investigadores proponen monitorear la entropía y la masa de probabilidad como indicadores tempranos de sobreoptimización para evitar una disminución del rendimiento. También sugieren que se podrían emplear técnicas de regularización adaptativa durante el entrenamiento para lograr este equilibrio. Las implicaciones de estos hallazgos son importantes para mejorar los métodos de aprendizaje de preferencias fuera de línea, ofreciendo estrategias para optimizar los DAA sin caer en la trampa de la optimización excesiva.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.