Together AI lanza RedPajama v2: un conjunto de datos abierto con 30 billones de tokens para entrenar modelos de lenguaje grandes

Los datos de alta calidad son esenciales para el éxito de los LLM abiertos de última generación como los modelos Llama, Mistral, Falcon, MPT y RedPajama. Sin embargo, debido a anomalías que surgen de la conversión de HTML a texto plano, fuentes de baja calidad generalmente y sesgos inherentes a la difusión de contenido en la web, estos datos no están refinados y no son ideales para uso directo en la formación de LLM. Recopilar el conjunto de datos y la combinación de datos correctos es una tarea tediosa que requiere mucho tiempo, recursos y dinero. Aunque se han creado varios proyectos comunitarios en torno a esta iniciativa, como C4, RedPajama-1T, Refinedweb (Falcon), Dolma (AI2) y SlimPajama, muchos de ellos solo cubren un subconjunto de los rastreos de CommonCrawl y ofrecen un alcance muy limitado. método de filtrado de datos.

Los investigadores de Together.ai lanzaron RedPajama-1T en marzo de este año, un conjunto de datos de 5 TB, más de 190.000 veces y los han estado utilizando de manera imaginativa. Con 1 billón de tokens ingleses de alta calidad, RedPajama-1T fue solo el comienzo. Los investigadores han dado un paso más al lanzar RedPajama-V2, un vasto conjunto de datos en línea de 30 billones de tokens, el mayor conjunto de datos disponible públicamente dedicado a sistemas de aprendizaje automático basados ​​en el aprendizaje.

El equipo cree que RedPajama-Data-v2 proporcionará un repositorio de datos en línea que se puede utilizar como base para extraer conjuntos de datos de alta calidad para la formación de LLM y como base para un estudio en profundidad de los datos de formación de LLM. Afirman que su cobertura de CommonCrawl (84 volcados procesados) no tiene paralelo. Más importante aún, incluyen más de 40 anotaciones de calidad: el resultado de múltiples clasificadores de ML sobre la calidad de los datos, resultados de minhash que pueden usarse para deduplicación difusa o heurísticas. Un desarrollador de LLM puede utilizar estas anotaciones para generar rápida y fácilmente su conjunto de datos de preentrenamiento personalizado dividiendo y filtrando datos disponibles públicamente.

CommonCrawl es el énfasis principal de RedPajama-V2. RedPajama-V2 se construye desde cero utilizando 84 rastreos CommonCrawl y otros datos web disponibles públicamente. Este conjunto de datos comprende datos sin procesar (texto sin formato), más de 40 anotaciones de alta calidad y grupos de deduplicación.

Cada instantánea de CommonCrawl es procesada primero por la canalización CCNet como primer paso para ensamblar este conjunto de datos. Debido a su procesamiento mínimo, este canal encaja bien con la idea general de mantener la mayor cantidad posible de datos sin procesar y permitir que los creadores de modelos en el canal realicen su filtrado y reponderación. Usando el filtro de idioma de CCNet, solo hemos incluido inglés, francés, español, alemán e italiano en esta versión. Esta etapa de procesamiento genera cien mil millones de páginas de texto.

Tanto para el grupo “principal” como para el “medio”, los investigadores calculan más de 40 de las anotaciones de calidad más populares y los documentos de texto procesados ​​por CCNet. El objetivo principal de estas anotaciones es promover la investigación sobre su uso óptimo y permitir a los desarrolladores de modelos que trabajan en fases posteriores filtrar o reponderar el conjunto de datos según sus criterios. Además, esperan poder agregar más señales de alta calidad con la ayuda de la comunidad.

Junto con estas firmas minhash, el equipo también realiza una deduplicación exacta aplicando un filtro Bloom al resumen hash sha1 del documento. Estos se mantienen como un archivo de anotaciones de calidad separado para permitir restaurar la distribución original no duplicada para facilitar la investigación en este enfoque.

RedPajama-v2 tiene 113 mil millones de documentos en inglés, alemán, francés, español e italiano y es el resultado del procesamiento de 84 rastreos de CommonCrawl. Se retienen los 80.000 millones de documentos estimados en la partición final, mientras que los recuentos de documentos y tokens en las particiones principal e intermedia se determinan antes y después de la deduplicación. El recuento de tokens cae un 60%, pero el número de documentos cae un 71%, lo que sugiere que los documentos finales suelen ser más cortos.

El conjunto de datos se redujo en aproximadamente un 40 % después de deduplicar los documentos principales y medios mediante un filtro Bloom. Los documentos de texto proporcionan la mayor parte del conjunto de datos, incluidas anotaciones de calidad y grupos de deduplicación. El diseño es muy similar al especificado por CCNet. Para ser más específico, las páginas de cada instantánea de CommonCrawl se dividen en fragmentos de 5k, y la clave indica el fragmento, el idioma y el depósito de perplejidad (partición).

El equipo espera ampliar pronto su conjunto actual de anotaciones de alta calidad para incluir cosas como anotaciones de contaminación en comparación con los puntos de referencia de LLM ampliamente utilizados, anotaciones de categorización y modelado de temas para cada documento, y cualquier anotación adicional que despierte el interés en la comunidad.


Revisar la GitHub y Blog de referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.