Optimización de la asignación de datos de capacitación entre la delicadeza supervisada y la preferencia en modelos de idiomas grandes

Los modelos de idiomas grandes (LLM) enfrentan desafíos significativos para optimizar sus métodos posteriores a la capacitación, particularmente en el equilibrio de enfoques supervisados ​​de ajuste fino (SFT) y aprendizaje de refuerzo (RL). Si bien SFT utiliza pares directos de respuesta de instrucción y métodos RL como RLHF utilizan el aprendizaje basado en preferencias, la asignación óptima de recursos de capacitación limitados entre estos enfoques sigue sin estar claro. Estudios recientes han demostrado que los modelos pueden lograr la alineación de las tareas y las capacidades de razonamiento mejoradas sin SFT extensas, desafiando las tuberías tradicionales posteriores al entrenamiento secuencial. Además, el costo sustancial de recopilar y anotar datos humanos en comparación con los costos de calcular crea la necesidad de comprender la efectividad de los diferentes métodos de capacitación bajo presupuestos de anotación de datos fijos.

La investigación existente ha explorado varias compensaciones en la capacitación del modelo de lenguaje bajo presupuestos fijos, incluidas las comparaciones entre el prostramiento versus la sintonización y la fineta versus la destilación del modelo. Los estudios han examinado los datos y calculan los costos de los métodos SFT y RL de forma aislada junto con consideraciones de rentabilidad en la generación de datos humanos y sintéticos. Si bien algunas investigaciones muestran los efectos de los datos de preferencia de alta calidad sobre métodos RL como la optimización de preferencia directa (DPO) y PPO, otros estudios se centran en la relación entre los métodos SFT y RL con respecto al olvido, la generalización y la alineación del modelo. Sin embargo, estos estudios no han fallado en abordar la asignación óptima de recursos entre enfoques basados ​​en SFT y RL bajo estrictas restricciones de anotación de datos.

Investigadores del Instituto de Tecnología de Georgia han propuesto un estudio integral que examina la asignación óptima de los presupuestos de datos de capacitación entre SFT y Finetuning de preferencias (PFT) en LLM. El estudio investiga esta relación en cuatro tareas diversas, múltiples tamaños de modelo y diversos costos de anotación de datos. Aborda el “problema de inicio en frío” en tareas matemáticas, donde la eliminación de SFT conduce al rendimiento subóptimo debido a los cambios de distribución al aplicar DPO directamente al modelo base. Sus hallazgos sugieren que, si bien los presupuestos de datos más grandes se benefician de la combinación de ambos métodos, asignar incluso una pequeña porción del presupuesto a SFT puede mejorar significativamente el rendimiento en las tareas analíticas.

El estudio evalúa la rentabilidad y la asignación óptima de recursos entre SFT y PFT en LLM posteriores al entrenamiento por debajo de 10 mil millones de parámetros. La metodología de investigación mide los presupuestos de datos a través de ejemplos de capacitación o costos de anotación monetaria, asumiendo los iguales costos laborales para ambos métodos y la disponibilidad de indicaciones de capacitación. La configuración experimental comienza sin datos etiquetados específicos de tarea, utilizando conjuntos de datos de código abierto o datos curados sintéticamente para cada tarea de destino. Para mantener el enfoque en las mejoras específicas de la tarea, se excluyen los conjuntos de datos conversacionales de uso general comúnmente utilizados en PFT, como las preferencias de ultrabeedback y Chatbot Arena. Este enfoque controlado permite una medición precisa de las mejoras de rendimiento resultantes de la anotación de datos dirigida.

Los resultados revelan que la asignación óptima del presupuesto de capacitación entre los métodos SFT y PFT resulta crucial, con conjuntos de datos correctamente equilibrados superan los conjuntos de datos asignados subóptimamente de tamaño 2-5 veces mayor. El uso de ejemplos de 5k con asignación de 25% de SFT para tareas como resumen, ayuda y matemáticas de la escuela primaria coincide con el rendimiento de 20k ejemplos con asignación de 75% de SFT. El estudio identifica que SFT puro sobresale en escenarios de datos bajos, mientras que los presupuestos de datos más grandes se benefician de proporciones más altas de datos de preferencia. Además, el fino de preferencia directa en los modelos base muestra un éxito limitado en las tareas matemáticas, y la asignación incluso de una pequeña porción a SFT mejora significativamente el rendimiento al alinear mejor el estilo de respuesta del modelo de referencia.

En conclusión, este documento proporciona información crucial sobre la optimización de LLM después del entrenamiento bajo restricciones de recursos, particularmente con respecto a la interacción entre SFT y PFT. El estudio identifica un significativo “problema de arranque en frío” al aplicar PFT directamente a los modelos base, que se puede mitigar de manera efectiva asignando incluso el 10% del presupuesto a SFT inicial. Sin embargo, la investigación reconoce las limitaciones, incluidos los métodos fuera de línea como DPO y KTO para el uso para la implementación de RL, y los posibles sesgos de usar GPT4 para la generación y evaluación de datos sintéticos. Además, el tamaño del modelo está limitado a 10 mil millones de parámetros, de lo contrario, sería extremadamente calculador de recursos intensivos para ejecutar miles de ejecuciones de finecirios con tamaños de modelo más grandes como parámetros 70B.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.