Optimización de la asignación de datos de capacitación entre la delicadeza supervisada y la preferencia en modelos de idiomas grandes

Los modelos de idiomas grandes (LLM) enfrentan desafíos significativos para optimizar sus métodos posteriores a la capacitación, particularmente en el equilibrio de enfoques supervisados de ajuste fino (SFT) y aprendizaje de refuerzo (RL). Si bien SFT utiliza pares directos de respuesta de instrucción y métodos RL como RLHF utilizan el aprendizaje basado en preferencias, la asignación óptima de recursos de capacitación limitados entre estos enfoques sigue sin estar claro. Estudios recientes han demostrado que los modelos pueden lograr la alineación de las tareas y las capacidades de razonamiento mejoradas sin SFT extensas, desafiando las tuberías tradicionales posteriores al entrenamiento secuencial. Además, el costo sustancial de recopilar y anotar datos humanos en comparación con los costos de calcular crea la necesidad de comprender la efectividad de los diferentes métodos de capacitación bajo presupuestos de anotación de datos fijos.

La investigación existente ha explorado varias compensaciones en la capacitación del modelo de lenguaje bajo presupuestos fijos, incluidas las comparaciones entre el prostramiento versus la sintonización y la fineta versus la destilación del modelo. Los estudios han examinado los datos y calculan los costos de los métodos SFT y RL de forma aislada junto con consideraciones de rentabilidad en la generación de datos humanos y sintéticos. Si bien algunas investigaciones muestran los efectos de los datos de preferencia de alta calidad sobre métodos RL como la optimización de preferencia directa (DPO) y PPO, otros estudios se centran en la relación entre los métodos SFT y RL con respecto al olvido, la generalización y la alineación del modelo. Sin embargo, estos estudios no han fallado en abordar la asignación óptima de recursos entre enfoques basados en SFT y RL bajo estrictas restricciones de anotación de datos.

Investigadores del Instituto de Tecnología de Georgia han propuesto un estudio integral que examina la asignación óptima de los presupuestos de datos de capacitación entre SFT y Finetuning de preferencias (PFT) en LLM. El estudio investiga esta relación en cuatro tareas diversas, múltiples tamaños de modelo y diversos costos de anotación de datos. Aborda el “problema de inicio en frío” en tareas matemáticas, donde la eliminación de SFT conduce al rendimiento subóptimo debido a los cambios de distribución al aplicar DPO directamente al modelo base. Sus hallazgos sugieren que, si bien los presupuestos de datos más grandes se benefician de la combinación de ambos métodos, asignar incluso una pequeña porción del presupuesto a SFT puede mejorar significativamente el rendimiento en las tareas analíticas.

El estudio evalúa la rentabilidad y la asignación óptima de recursos entre SFT y PFT en LLM posteriores al entrenamiento por debajo de 10 mil millones de parámetros. La metodología de investigación mide los presupuestos de datos a través de ejemplos de capacitación o costos de anotación monetaria, asumiendo los iguales costos laborales para ambos métodos y la disponibilidad de indicaciones de capacitación. La configuración experimental comienza sin datos etiquetados específicos de tarea, utilizando conjuntos de datos de código abierto o datos curados sintéticamente para cada tarea de destino. Para mantener el enfoque en las mejoras específicas de la tarea, se excluyen los conjuntos de datos conversacionales de uso general comúnmente utilizados en PFT, como las preferencias de ultrabeedback y Chatbot Arena. Este enfoque controlado permite una medición precisa de las mejoras de rendimiento resultantes de la anotación de datos dirigida.

Los resultados revelan que la asignación óptima del presupuesto de capacitación entre los métodos SFT y PFT resulta crucial, con conjuntos de datos correctamente equilibrados superan los conjuntos de datos asignados subóptimamente de tamaño 2-5 veces mayor. El uso de ejemplos de 5k con asignación de 25% de SFT para tareas como resumen, ayuda y matemáticas de la escuela primaria coincide con el rendimiento de 20k ejemplos con asignación de 75% de SFT. El estudio identifica que SFT puro sobresale en escenarios de datos bajos, mientras que los presupuestos de datos más grandes se benefician de proporciones más altas de datos de preferencia. Además, el fino de preferencia directa en los modelos base muestra un éxito limitado en las tareas matemáticas, y la asignación incluso de una pequeña porción a SFT mejora significativamente el rendimiento al alinear mejor el estilo de respuesta del modelo de referencia.

En conclusión, este documento proporciona información crucial sobre la optimización de LLM después del entrenamiento bajo restricciones de recursos, particularmente con respecto a la interacción entre SFT y PFT. El estudio identifica un significativo “problema de arranque en frío” al aplicar PFT directamente a los modelos base, que se puede mitigar de manera efectiva asignando incluso el 10% del presupuesto a SFT inicial. Sin embargo, la investigación reconoce las limitaciones, incluidos los métodos fuera de línea como DPO y KTO para el uso para la implementación de RL, y los posibles sesgos de usar GPT4 para la generación y evaluación de datos sintéticos. Además, el tamaño del modelo está limitado a 10 mil millones de parámetros, de lo contrario, sería extremadamente calculador de recursos intensivos para ejecutar miles de ejecuciones de finecirios con tamaños de modelo más grandes como parámetros 70B.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

Optimización de la asignación de datos de capacitación entre la delicadeza supervisada y la preferencia en modelos de idiomas grandes

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cree un flujo de trabajo de automatización de CloakBrowser con Stealth Chromium, perfiles persistentes e inspección de la señal del navegador

Cómo los principales modelos de razonamiento convergen en el mismo “cerebro” mientras modelan la realidad cada vez mejor

LightSeek Foundation lanza TokenSpeed, un motor de inferencia LLM de código abierto dirigido al rendimiento de nivel TensorRT-LLM para cargas de trabajo agentes

You missed

La iniciativa de sostenibilidad de la energía triunfa entre los escolares de Alaró

Chris Brown exagera la recuperación post-bebé de Jada Wallace

Una roca marciana de 29 libras mantuvo como rehén al rover Curiosity de la NASA durante 6 días

El avión de sobornos de Trump pronto despegará