Bare: un método de IA de generación de datos sintético que combina la diversidad de los modelos base con la calidad de los modelos de instrucciones ajustados

A medida que crece la necesidad de datos de entrenamiento de alta calidad, la generación de datos sintéticos se ha vuelto esencial para mejorar el rendimiento de LLM. Los modelos sintonizados con instrucciones se usan comúnmente para esta tarea, pero a menudo luchan por generar diversos resultados, lo cual es crucial para la generalización del modelo. A pesar de los esfuerzos, como la provisión de técnicas que fomentan la variación, como el acondicionamiento en resultados pasados ​​o asumiendo diferentes personajes, la diversidad sigue siendo limitada. Por el contrario, los modelos base, que carecen de sesgos posteriores al entrenamiento, generan respuestas más diversas, pero tienden a ser de calidad menor. Los estudios muestran que los modelos base producen salidas con menor similitud de coseno por pares, lo que indica una mayor diversidad, mientras que el colapso del modo de riesgo de modelos sintonizados con instrucciones.

Los datos sintéticos se usan ampliamente en la capacitación de modelos de vanguardia para razonamiento, codificación y tareas de resolución de problemas. Aún así, su uso excesivo puede conducir a problemas como la degradación iterativa, donde los modelos generan resultados cada vez más homogeneizados. Enfoques existentes para mejorar la diversidad, como la escala de temperatura, el muestreo de núcleo y la generación de múltiples etapas, ofrecen soluciones parciales, pero a menudo requieren un esfuerzo manual significativo. Si bien el rendimiento posterior es la métrica estándar para evaluar los datos sintéticos, las medidas basadas en la incrustación como Bertscore proporcionan mejores ideas sobre la diversidad semántica. Además, evaluar la calidad de las muestras sintéticas individuales sigue siendo un desafío, lo que requiere marcos de evaluación más sólidos.

Investigadores de UC Berkeley, Stanford, Foundry, Microsoft Research y Princeton proponen un método de generación de datos sintéticos que integra modelos base e instruyendo para equilibrar la diversidad y la calidad. Su enfoque, Base-Refine (Bare), sigue un proceso de dos etapas donde las salidas del modelo base se refinan utilizando modelos de instrucciones sintonizados, mejorando la calidad del conjunto de datos al tiempo que preserva la diversidad. El ajuste fino con solo 1,000 muestras de generación desnuda logra un rendimiento comparable a los modelos superiores en LivecodeBench y mejora la precisión de GSM8K en un 101% sobre los datos solo de instructos. Bare también aumenta el ajuste fino basado en la balsa en un 18,4%, lo que demuestra su efectividad en la generación de datos diversos de alta calidad para varias tareas de aprendizaje automático.

Bare es un método de generación de datos sintéticos que mejora la calidad del conjunto de datos al refinar diversos salidas de modelos base con modelos de instrucciones sintonizados. El proceso comienza con un modelo base que genera un conjunto de datos inicial con ejemplos mínimos de pocos disparos. Luego, un modelo de instructo ajustado mejora cada muestra corrigiendo errores y mejorando la claridad al tiempo que preserva la diversidad. Este enfoque de dos etapas garantiza datos de alta calidad pero variados, lo que hace que el desnudo sea particularmente efectivo en los dominios de escasez de datos. Con solo tres ejemplos de pocos disparos y indicaciones generales, Blow minimiza el esfuerzo humano al tiempo que maximiza la flexibilidad. Los resultados experimentales muestran su potencial para generar conjuntos de datos sintéticos más precisos y diversos para aprendizaje automático tareas.

La evaluación de Bare se centra en la diversidad, la calidad de los datos y el rendimiento aguas abajo en los mismos dominios y líneas de base discutidas anteriormente. Implementación de LLAMA-3.1-70B-BASE para la generación inicial y LLAMA-3.1-70B-Instructo para el refinamiento, Bare mantiene la diversidad de datos al tiempo que mejora la calidad de la generación. Los experimentos de ajuste fino muestran que los modelos básicos e instruyentes superan los modelos de base e instruyen, mejorando la precisión del modelo en múltiples conjuntos de datos. En particular, la refinación con GPT-4O aumenta el rendimiento. Los estudios de ablación confirman que el uso de un modelo base es esencial para la diversidad, ya que la refinación de los resultados de solo instructos reduce la precisión. En general, Bare integra efectivamente modelos base e instructores para generar datos sintéticos de alta calidad para mejorar las tareas posteriores.

En conclusión, el estudio examina cuantitativamente métodos de generación de datos sintéticos, revelando que los modelos base aseguran la diversidad, mientras que los modelos sintonizados mejoran la calidad. Bare integra ambos para generar datos diversos y de alta calidad. Experimentos extensos validan su efectividad, mejorando tareas aguas abajo como GSM8K, LivecodeBench y Raft, estableciendo un nuevo estado de arte. El trabajo futuro podría refinar el proceso a través de refinadores ajustados, etapas adicionales o objetivos de capacitación alternativos. Más allá de los datos de capacitación sintética, Bare también puede crear diversos conjuntos de datos de evaluación. A medida que los datos sintéticos se vuelven esenciales para el entrenamiento de modelos, Bare ofrece una solución escalable que equilibra la diversidad y la calidad, superando los métodos existentes en varios dominios.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco múltiple de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.