Lanzamientos de HuggingFace 馃嵎 FineWeb: un nuevo conjunto de datos a gran escala (15 billones de tokens, 44 TB de espacio en disco) para la capacitaci贸n previa de LLM

Hugging Face ha introducido 馃嵎Fina Web, un conjunto de datos completo dise帽ado para mejorar la capacitaci贸n de modelos de lenguaje grandes (LLM). Publicado el 31 de mayo de 2024, este conjunto de datos establece un nuevo punto de referencia para la formaci贸n previa de LLM y promete un rendimiento mejorado a trav茅s de una meticulosa curaci贸n de datos y t茅cnicas de filtrado innovadoras.

馃嵎 FineWeb se basa en 96 instant谩neas de CommonCrawl, que abarcan la asombrosa cifra de 15 billones de tokens y ocupan 44 TB de espacio en disco. CommonCrawl, una organizaci贸n sin fines de lucro que archiva la web desde 2007, proporcion贸 la materia prima para este conjunto de datos. Hugging Face aprovech贸 estos extensos rastreos web para compilar un conjunto de datos rico y diverso, con el objetivo de superar las capacidades de conjuntos de datos anteriores como RefinedWeb y C4.

Una de las caracter铆sticas destacadas de 馃嵎 FineWeb es su riguroso proceso de deduplicaci贸n. Utilizando MinHash, una t茅cnica de hash difuso, el equipo de Hugging Face se asegur贸 de que los datos redundantes se eliminaran de manera efectiva. Este proceso mejora el rendimiento del modelo al reducir la memorizaci贸n de contenido duplicado y mejorar la eficiencia del entrenamiento. El conjunto de datos se someti贸 a una deduplicaci贸n individual y global; la primera result贸 m谩s beneficiosa a la hora de retener datos de alta calidad.

La calidad es la piedra angular de 馃嵎 FineWeb. El conjunto de datos emplea estrategias de filtrado avanzadas para eliminar contenido de baja calidad. Los pasos iniciales incluyeron la clasificaci贸n del idioma y el filtrado de URL para excluir texto que no estuviera en ingl茅s y contenido para adultos. Sobre la base de C4, se aplicaron filtros heur铆sticos adicionales, como eliminar documentos con un contenido excesivo de texto repetitivo o aquellos que no terminaban las l铆neas con puntuaci贸n.

Junto al conjunto de datos principal, Hugging Face present贸 馃摎 FineWeb-Edu, un subconjunto dise帽ado para contenido educativo. Este subconjunto se cre贸 utilizando anotaciones sint茅ticas generadas por Llama-3-70B-Instruct, que calific贸 500.000 muestras seg煤n su valor acad茅mico. Luego se aplic贸 un clasificador entrenado con estas anotaciones al conjunto de datos completo, filtrando el contenido no educativo. El resultado es un conjunto de datos de 1,3 billones de tokens optimizados para puntos de referencia educativos como MMLU, ARC y OpenBookQA.

馃嵎 FineWeb ha sido probado rigurosamente con varios puntos de referencia, superando constantemente a otros conjuntos de datos abiertos a escala web. El rendimiento del conjunto de datos se valida mediante una serie de puntos de referencia de “se帽ales tempranas” que utilizan modelos peque帽os. Estos puntos de referencia incluyen CommonSense QA, HellaSwag y OpenBook QA, entre otros. 馃摎 FineWeb-Edu, en particular, mostr贸 mejoras notables, demostrando la efectividad de las anotaciones sint茅ticas para el filtrado de contenido educativo de alta calidad.

El lanzamiento de 馃嵎 FineWeb por parte de Hugging Face marca un momento crucial en la comunidad cient铆fica abierta. Proporciona a investigadores y usuarios una poderosa herramienta para formar LLM de alto rendimiento. El conjunto de datos, publicado bajo la permisiva licencia ODC-By 1.0, es accesible para futuras investigaciones y desarrollo. De cara al futuro, Hugging Face pretende extender los principios de FineWeb a otros idiomas, ampliando as铆 el impacto de los datos web de alta calidad en diversos contextos ling眉铆sticos.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif est谩 comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo m谩s reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje autom谩tico y las noticias sobre aprendizaje profundo que es t茅cnicamente s贸lida y f谩cilmente comprensible para una amplia audiencia. La plataforma cuenta con m谩s de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el p煤blico.