Alineación Modelos de idiomas grandes (LLM) con los valores humanos sigue siendo difícil debido a objetivos poco claros, señales de entrenamiento débiles y la complejidad de la intención humana. Algoritmos de alineación directa (DAAS) Ofrezca una forma de simplificar este proceso optimizando los modelos directamente sin depender del modelado de recompensas o el aprendizaje de refuerzo. Estos algoritmos utilizan diferentes métodos de clasificación, como comparar pares de salidas o calificar respuestas individuales. Algunas versiones también requieren un paso extra de ajuste, mientras que otras no. Hay más complicaciones para comprender cuán efectivos son y qué enfoque es mejor debido a las diferencias en cómo se definen y aplican las recompensas.
Actualmente, los métodos para alinear modelos de idiomas grandes (LLM) siguen múltiples pasos, incluidos ajuste de fino supervisado (SFT)modelado de recompensas y aprendizaje de refuerzo. Estos métodos introducen desafíos debido a su complejidad, dependencia de los modelos de recompensa y el alto costo computacional. Daas Intente optimizar los modelos de las preferencias humanas directamente, sin pasar por alto el aprendizaje de refuerzo y el modelado de recompensas. Las diferentes formas de DAA pueden variar en su método de optimización, funciones de pérdida y método de ajuste fino. A pesar de su potencial para simplificar la alineación, las inconsistencias en los métodos de clasificación, los cálculos de recompensas y las estrategias de capacitación crean más dificultades para evaluar su efectividad.
Para mejorar los algoritmos de alineación directa de una sola etapa (DAA) como Orpo y Asftlos investigadores propusieron agregar un Fase de ajuste fino supervisado (SFT) separado e introducir un parámetro de escala (β). Estos métodos originalmente no se proporcionaban con un β parámetro e hizo alineación directamente. Como tal, fueron menos efectivos. La inclusión de una fase SFT explícita y permitir que la escala de preferencia de control de β proporcione estos métodos el rendimiento comparable a los enfoques de dos etapas, como Dpo. La principal distinción entre diferentes DAA radica en si usan una odds ratio o una relación política de referencia, lo que afecta cómo se optimiza la alineación.
El marco modifica las funciones de pérdida de ASFT y ORPO para incluir SFT de manera implícita, haciéndolas adaptables a las configuraciones de una sola etapa y en dos etapas. El parámetro de escala β se usa para ajustar la resistencia de las actualizaciones de preferencia hacia un mejor control en la optimización. El análisis experimental sugiere que los DAA que dependen de las comparaciones por pares superan a las que dependen de las preferencias puntuales, lo que garantiza señales de clasificación estructuradas en calidad de alineación.
Investigadores evaluados Algoritmos de alineación directa (DAA) usando Llama 3.1 8b en Ultrachat y UF conjuntos de datos, pruebas en Alpacaeval 2 y Arenahardmientras que LLAMA 3.2 3B se usó para Reddit TL; DR. Autorización supervisada (SFT) en UF mejoró la alineación ORPO y ASFT. Orpo realizó a la par con DPO y ASFT, logrando un +2.04% aumentar Arenahard Ganar la tasa pero aún rezagándose detrás de Orpo. β ajustar un rendimiento significativamente mejorado, produciendo mejoras de +7.0 y +43.4 en GPT-4 tasa de ganancia para TL; DR y +3.46 y +8.27 en UF Alpacaeval 2 LC tasa de ganancia. El análisis comparativo de DPO, IPO, SIMPO y otros métodos de alineación mostró que los ajustes β en Lβasftalign y Lβorpoalign Optimización mejorada de preferencias, lo que demuestra que los modelos entrenados con SFT funcionaban mejor cuando se incorporan componentes Lalign.
Al final, el método propuesto mejoró los algoritmos de alineación directa (DAA) al incorporar un ajuste de fino supervisado (SFT) fase. Esto condujo a ganancias de rendimiento consistentes y mejoró significativamente Orpo y Asft. A pesar de que la evaluación se realizó en conjuntos de datos y tamaños de modelo específicos, los resultados proporcionan un enfoque estructurado para mejorar la alineación del modelo. Este método es una base que se utilizará como base para futuras investigaciones. Se puede extrapolarse a otros modelos más grandes con conjuntos de datos más diversos para refinar técnicas de alineación a través de estrategias de optimización que identifican factores en la calidad de la alineación.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.