NVIDIA presenta la escalada: un marco para la optimización de la mezcla de datos iterativo en el envío del modelo de lenguaje

Desafíos en la construcción de mezclas de datos de previación efectiva

A medida que los modelos de lenguaje grande (LLMS) se escala en tamaño y capacidad, la elección de los datos previos al ejercicio sigue siendo un determinante crítico del rendimiento posterior. La mayoría de los LLM están capacitados en grandes conjuntos de datos a escala web, como el rastreo común, que proporcionan una cobertura amplia pero carecen de etiquetas de dominio explícitas. Esto introduce dificultades para curar mezclas que equilibran el conocimiento general con experiencia específica del dominio.

La curación del conjunto de datos manual, como se ve en esfuerzos como la pila, es intensiva en mano de obra y no escala bien. Además, la relación no lineal entre la composición de datos y el rendimiento del modelo hace que no sea trivial determinar qué proporciones de datos de dominio son óptimas. Estas limitaciones motivan la necesidad de métodos de selección de datos automatizados, escalables y adaptativos.

Climb: un marco iterativo para el descubrimiento de la mezcla de datos

Para abordar esto, los investigadores de nvidia proponen TREPARBottrappto de mezcla de datos iterativo basado en agrupación—Un marco que automatiza el descubrimiento y el refinamiento de las mezclas de datos para el modelo de lingüística previa. Climb combina la agrupación no supervisada con optimización iterativa para identificar mezclas que se adapten bien a los objetivos generales o específicos del dominio.

La tubería comienza incrustando datos de texto a gran escala en un espacio semántico utilizando codificadores previos a la aparición. La agrupación de K-means se aplica para organizar los datos en grupos coherentes, que se podan y se fusionan en función de la calidad y la redundancia del contenido. Esto forma la base para construir mezclas de candidatos.

Posteriormente, Climb utiliza modelos proxy para evaluar las mezclas muestreadas y se adapta a un predictor basado en la regresión (por ejemplo, LightGBM) para estimar el rendimiento de la mezcla. Un procedimiento de arranque iterativo refina progresivamente el espacio de muestreo, priorizando las configuraciones de alto rendimiento. Esto permite que la subida converja en una mezcla de datos efectiva bajo un presupuesto de cómputo fijo.

Detalles técnicos y consideraciones de diseño

El proceso de optimización se enmarca como un problema de nivel: en el nivel inferior, los modelos proxy están capacitados en mezclas de candidatos; En el nivel superior, se aprende un predictor a aproximar los resultados de rendimiento. Este predictor guía aún más muestreo y poda, lo que permite una exploración eficiente del espacio de la mezcla.

La escalada apoya la escasez en los pesos de la mezcla, alentando el descubrimiento de subconjuntos de datos compactos y relevantes para el dominio. El uso de la agrupación sobre incrustaciones, en lugar de características a nivel de token, genera coherencia semántica dentro de los grupos. El refinamiento iterativo está estructurado para equilibrar la amplitud (cobertura del espacio de búsqueda) con profundidad (precisión predictiva) y los estudios de ablación confirman que la asignación cuidadosa de calificación a través de las iteraciones mejora la convergencia y el rendimiento final.

El marco también exhibe robustez a través de tamaños de modelos proxy y granularidades de clúster. Mientras que los modelos proxy más grandes producen predicciones ligeramente mejores, incluso los modelos más pequeños preservan las tendencias estructurales clave. Del mismo modo, la escalada es relativamente insensible al recuento inicial del clúster, siempre que esté dentro de un rango razonable.

Evaluación y observaciones empíricas

La escalada se evaluó en varias tareas de razonamiento general, incluidas PIQA, ARC (Easy and Challenge), Hellaswag y Winogrande. Un modelo de parámetro 1b entrenado en mezclas descubiertas de ascenso logró una precisión promedio de 60.41%superando las líneas de base comparables como Doremi y RegMix.

Cuando se extendió a la pretrenesa de 400b-token, este modelo 1B superó a LLAMA-3.2-1B por un 2,0% en un amplio conjunto de puntos de referencia. Del mismo modo, en la categoría de modelo Sub-500M, el pretratenamiento basado en ascenso condujo a mejoras consistentes sobre modelos como SMollM y Tinllama.

La especialización del dominio destaca además la utilidad de Climb. En los puntos de referencia de MMLU específicos en STEM, Humanidades y Ciencias Sociales, los modelos capacitados por escalas superaron tanto a la selección aleatoria como a las líneas de base exhaustivas de búsqueda. El proceso iterativo mostró ganancias consistentes en cada etapa, lo que indica una guía efectiva del modelo predictivo.

Para facilitar la reproducibilidad y la investigación adicional, Nvidia ha publicado dos recursos:

  • Tipblab: Un corpus de 1.2 billones de token organizado en 20 grupos semánticos.
  • Trepmix: Una mezcla optimizada de 400 billones de token para pretrenesa eficiente.

Los modelos capacitados en TrewMix superan a aquellos entrenados en conjuntos de datos como Nemotron-CC y SMollM bajo presupuestos de token equivalentes, lo que demuestra características de escala mejoradas.

Conclusión

Climb presenta un enfoque sistemático para optimizar las mezclas de datos en el pretrén de LLM. Al combinar la agrupación semántica con búsqueda iterativa basada en el poder, evita la dependencia de anotaciones manuales o heurísticas estáticas. El método admite objetivos de capacitación generalistas y especialistas y se adapta a diferentes limitaciones de cálculo y datos.

Este marco contribuye a los esfuerzos continuos en la IA centrada en los datos al ofrecer una alternativa escalable y de principios a las tuberías de datos hechas a mano. Su rendimiento empírico subraya la importancia de la optimización de la mezcla de datos para maximizar la utilidad del modelo, particularmente bajo presupuestos de recursos fijos.


Mira el Papel, Subblab en HF y Escalada en HF . Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.