Investigadores de la Universidad de Oregon y Adobe presentan CulturaX: un conjunto de datos multilingüe con 6,3T de tokens en 167 idiomas adaptado para el desarrollo de modelos de lenguaje grande (LLM)

Al mejorar drásticamente el rendimiento de última generación en una amplia gama de tareas y revelar nuevas habilidades emergentes, los modelos de lenguajes grandes (LLM) han impactado profundamente la investigación y las aplicaciones de la PNL. Para codificar textos de entrada en vectores de representación, se han investigado los modelos de solo codificador; para la creación de textos se han estudiado los modelos sólo decodificadores; y para realizar la creación secuencia a secuencia se han estudiado los modelos codificador-decodificador. El crecimiento exponencial de los tamaños de los modelos y los conjuntos de datos de entrenamiento, ambos requeridos por las leyes de escalamiento para lograr el máximo rendimiento, ha sido la fuerza principal detrás de las notables capacidades de los LLM. Por ejemplo, aunque el modelo BERT sólo contenía unos pocos cientos de millones de parámetros, los modelos más contemporáneos basados ​​en GPT ahora incluyen cientos de miles de millones de parámetros.

Los tamaños de modelos masivos y los enormes conjuntos de datos de entrenamiento son los elementos principales para avanzar en modelos de lenguaje grandes (LLM) con capacidades de aprendizaje sorprendentes. Con el desarrollo de la PNL, los LLM han estado cada vez más disponibles para el público en general para fomentar estudios adicionales y aplicaciones prácticas. Sin embargo, los conjuntos de datos de capacitación para estos LLM generalmente solo se proporcionan parcialmente, especialmente para los modelos de última generación. Se requiere una limpieza y deduplicación exhaustiva de datos para crear datos de capacitación de alta calidad para los LLM. De esta manera, la necesidad de una mayor apertura en torno a los datos de capacitación ha obstaculizado los esfuerzos para replicar los hallazgos y avanzar en el campo de la investigación sobre alucinaciones y sesgos en los LLM. Estas dificultades se ven agravadas en escenarios de aprendizaje multilingüe por la recolección y limpieza típicamente insuficientes de las colecciones de textos multilingües. Como resultado, no existe un buen conjunto de datos de código abierto que pueda usarse para capacitar LLM en todos los idiomas. CulturaX, un enorme conjunto de datos multilingüe que incluye 6,3 billones de tokens en 167 idiomas, fue desarrollado por una colaboración de académicos de la Universidad de Oregon y Adobe Research para abordar este problema. Para garantizar la más alta calidad en el entrenamiento del modelo, el conjunto de datos pasa por un proceso estricto que comprende numerosos pasos de limpieza y deduplicación. Estos procesos incluyen identificar los idiomas en el conjunto de datos, filtrar el conjunto de datos mediante URL, limpiar el conjunto de datos mediante métricas, refinar los documentos y deduplicar los datos.

CulturaX se somete a una limpieza y deduplicación exhaustiva a nivel de documentos para garantizar la capacitación de LLM de la más alta calidad en todos los idiomas. El procedimiento de limpieza de datos utiliza un proceso completo para eliminar información inexacta. Esto requiere la eliminación de distracciones como la identificación incorrecta del idioma, datos venenosos y material no lingüístico.

Características clave

  • CulturaX es el conjunto de datos multilingüe de código abierto más grande que jamás se haya limpiado y deduplicado a fondo para su uso en aplicaciones LLM y NLP.
  • CulturaX proporciona un conjunto de datos masivo, multilingüe y de código abierto con datos de alta calidad y de aplicación inmediata para capacitar a los LLM, resolviendo muchos problemas con los conjuntos de datos actuales.
  • Si bien existen conjuntos de datos multilingües de código abierto con datos de texto en varios idiomas, como mC4, su calidad y escala no cumplen con los requisitos para capacitar eficientemente a los LLM, especialmente modelos generativos como GPT. Por ejemplo, como se mencionó en la introducción, ni mC4 ni OSCAR proporcionan deduplicación difusa a nivel de documentos. El uso de cld3 da como resultado un reconocimiento de lenguaje inferior para mC4, lo cual es otro inconveniente. Si bien CC100 contiene datos posteriores a 2018, BigScience ROOTS solo ofrece una muestra de los datos de 46 idiomas.

El lanzamiento público completo de CulturaX de HuggingFace ayudará a estudiar más a fondo los LLM multilingües y sus aplicaciones. Mira aquí https://huggingface.co/datasets/uonlp/CulturaX

Deberías consultar CulturaX, un nuevo conjunto de datos multilingüe con datos de texto para 167 idiomas. Un flujo de trabajo exhaustivo limpia y elimina duplicados del conjunto de datos, lo que da como resultado 6,3 billones de tokens. Como conjunto de datos enorme y de alta calidad, CulturaX se puede utilizar para formar fácilmente LLM eficaces en varios idiomas. Esta información está disponible gratuitamente para el público y los investigadores esperan que pueda inspirar más estudios y usos prácticos de la adquisición del lenguaje.


Revisar la Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.