Proyección de Arte Multimodal (MAP) Los investigadores han introducido FineFineWeb, un gran sistema de clasificación automática de código abierto para datos web detallados. El proyecto descompone Fineweb deduplicado en 67 categorías únicas con amplios datos iniciales. Además, se lleva a cabo un análisis de correlación integral entre categorías verticales y puntos de referencia comunes y un análisis detallado de URL y distribución de contenido. El sistema proporciona conjuntos de pruebas especializados para la evaluación de PPL, que incluyen opciones de prueba de “copa pequeña” y de “copa mediana”. Los materiales de capacitación completos para la implementación de FastText y Bert acompañan al conjunto de datos, con próximas sugerencias para la proporción de datos basadas en la metodología RegMix.
El proceso de construcción de datos para FineFineWeb sigue un flujo de trabajo sistemático de varios pasos. La deduplicación inicial de FineWeb emplea técnicas de deduplicación exacta y MinHash. El etiquetado de URL utiliza GPT-4 para procesar el millón de URL raíz principales, clasificándolas en URL de dominio de interés (DoI) y dominio de no interés (DoNI). Además, la fase de recuperación aproximada implica un muestreo específico del dominio basado en las URL raíz etiquetadas, con Qwen2-7B-Instruct manejando el etiquetado de 500.000 puntos de datos positivos y negativos. Los modelos FastText, entrenados con estos datos etiquetados, realizan operaciones de recuperación aproximada en FineWeb para generar datos DoI aproximados.
La etapa de recuperación fina avanza en el proceso de refinamiento de datos utilizando Qwen2-72B-Instruct para etiquetar los datos DoI gruesos, creando puntos de datos de 100.000 dol positivos y 100.000 dol negativos. Después de eso, un modelo BERT, entrenado con estos datos etiquetados, realiza una recuperación precisa para producir el subconjunto DoI final de FineFineWeb. Además, toda la iteración de retirada gruesa-fina pasa por tres rondas con modificaciones específicas:
- FastText se vuelve a entrenar utilizando datos semilla actualizados, que combinan muestras retiradas por BERT, muestras eliminadas por BERT y datos semilla previamente etiquetados.
- El modelo BERT se mantiene congelado durante iteraciones posteriores.
- Los pasos para entrenar FastText, recuperación aproximada y recuperación precisa se repiten sin volver a etiquetar los datos con los modelos Qwen2-Instruct.
El análisis de similitud dominio-dominio emplea un enfoque analítico sofisticado que utiliza un muestreo ponderado proporcional entre subconjuntos de dominio, procesando mil millones de tokens de los subconjuntos de dominio. Luego, el modelo BGE-M3 se utiliza para generar dos tipos de incorporaciones: incorporaciones de dominio a partir de muestras de subconjuntos de dominio e incorporaciones de referencia a partir de muestras de referencia. El análisis concluye calculando las distancias MMD y Wasserstein entre incorporaciones de dominio e incorporaciones de referencia para cuantificar las relaciones de dominio.
El análisis de similitud revela varios patrones clave en las relaciones dominio-punto de referencia. Los puntos de referencia relacionados con el código (MBPP y HumanEval) muestran una distancia significativa de la mayoría de los dominios, excepto las matemáticas, lo que indica una representación limitada del código en el conjunto de datos. Los puntos de referencia de conocimiento general (Hellaswag, ARC, MMLU, BoolQ) demuestran relaciones estrechas con múltiples dominios, lo que sugiere una amplia distribución del conocimiento, al tiempo que excluye el contenido de juegos de azar. Además, GSM8K y TriviaQA exhiben notables variaciones específicas de dominio, particularmente en matemáticas y contenido fáctico. Por último, el dominio de los juegos de azar está claramente separado y muestra una superposición mínima con otros dominios y puntos de referencia.
El análisis de duplicación de dominio-dominio examina la unicidad de la URL entre dominios utilizando valores TF-IDF. Las puntuaciones altas de TF-IDF indican URL únicas específicas de un dominio, mientras que los valores bajos sugieren URL comunes entre dominios. El análisis revela una duplicación mínima en la mayoría de los dominios, con excepciones en las categorías de actualidad, mascotas y ciencias atmosféricas. El estudio de correlación dominio-punto de referencia, realizado en 28 modelos, compara las clasificaciones de rendimiento de dominio específico (BPC) con las clasificaciones de rendimiento de referencia utilizando la correlación de Spearman. Los dominios relacionados con STEM muestran correlaciones más fuertes con puntos de referencia centrados en el razonamiento (ARC, MMLU, GSM8K, HumanEval, MBPP), mientras que los dominios intensivos en conocimiento como literatura e historia se correlacionan más alto con puntos de referencia basados en hechos como TriviaQA.
Verificar el Conjunto de datos y Piar. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.