Screenshot 2024 06 03 At 8.05.44 Am.png

Hugging Face ha introducido 🍷Fina Web, un conjunto de datos completo diseñado para mejorar la capacitación de modelos de lenguaje grandes (LLM). Publicado el 31 de mayo de 2024, este conjunto de datos establece un nuevo punto de referencia para la formación previa de LLM y promete un rendimiento mejorado a través de una meticulosa curación de datos y técnicas de filtrado innovadoras.

🍷 FineWeb se basa en 96 instantáneas de CommonCrawl, que abarcan la asombrosa cifra de 15 billones de tokens y ocupan 44 TB de espacio en disco. CommonCrawl, una organización sin fines de lucro que archiva la web desde 2007, proporcionó la materia prima para este conjunto de datos. Hugging Face aprovechó estos extensos rastreos web para compilar un conjunto de datos rico y diverso, con el objetivo de superar las capacidades de conjuntos de datos anteriores como RefinedWeb y C4.

Una de las características destacadas de 🍷 FineWeb es su riguroso proceso de deduplicación. Utilizando MinHash, una técnica de hash difuso, el equipo de Hugging Face se aseguró de que los datos redundantes se eliminaran de manera efectiva. Este proceso mejora el rendimiento del modelo al reducir la memorización de contenido duplicado y mejorar la eficiencia del entrenamiento. El conjunto de datos se sometió a una deduplicación individual y global; la primera resultó más beneficiosa a la hora de retener datos de alta calidad.

La calidad es la piedra angular de 🍷 FineWeb. El conjunto de datos emplea estrategias de filtrado avanzadas para eliminar contenido de baja calidad. Los pasos iniciales incluyeron la clasificación del idioma y el filtrado de URL para excluir texto que no estuviera en inglés y contenido para adultos. Sobre la base de C4, se aplicaron filtros heurísticos adicionales, como eliminar documentos con un contenido excesivo de texto repetitivo o aquellos que no terminaban las líneas con puntuación.

Junto al conjunto de datos principal, Hugging Face presentó 📚 FineWeb-Edu, un subconjunto diseñado para contenido educativo. Este subconjunto se creó utilizando anotaciones sintéticas generadas por Llama-3-70B-Instruct, que calificó 500.000 muestras según su valor académico. Luego se aplicó un clasificador entrenado con estas anotaciones al conjunto de datos completo, filtrando el contenido no educativo. El resultado es un conjunto de datos de 1,3 billones de tokens optimizados para puntos de referencia educativos como MMLU, ARC y OpenBookQA.

🍷 FineWeb ha sido probado rigurosamente con varios puntos de referencia, superando constantemente a otros conjuntos de datos abiertos a escala web. El rendimiento del conjunto de datos se valida mediante una serie de puntos de referencia de «señales tempranas» que utilizan modelos pequeños. Estos puntos de referencia incluyen CommonSense QA, HellaSwag y OpenBook QA, entre otros. 📚 FineWeb-Edu, en particular, mostró mejoras notables, demostrando la efectividad de las anotaciones sintéticas para el filtrado de contenido educativo de alta calidad.

El lanzamiento de 🍷 FineWeb por parte de Hugging Face marca un momento crucial en la comunidad científica abierta. Proporciona a investigadores y usuarios una poderosa herramienta para formar LLM de alto rendimiento. El conjunto de datos, publicado bajo la permisiva licencia ODC-By 1.0, es accesible para futuras investigaciones y desarrollo. De cara al futuro, Hugging Face pretende extender los principios de FineWeb a otros idiomas, ampliando así el impacto de los datos web de alta calidad en diversos contextos lingüísticos.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.