FineWeb-C: un conjunto de datos creado por la comunidad para mejorar los modelos lingüísticos en TODOS los idiomas
FineWeb2 avanza significativamente los conjuntos de datos de preentrenamiento multilingües, cubriendo más de 1000 idiomas con datos de alta calidad. El conjunto de datos utiliza aproximadamente 8 terabytes de datos…