Apple AI lanzó un modelo de lenguaje de código abierto de 7 mil millones de dólares entrenado con 2,5 billones de tokens en conjuntos de datos abiertos

Los modelos de lenguaje (LM) se han vuelto fundamentales en el procesamiento del lenguaje natural (NLP), ya que permiten la generación de texto, la traducción y las tareas de análisis de sentimientos. Estos modelos exigen grandes cantidades de datos de entrenamiento para funcionar de manera precisa y eficiente. Sin embargo, la calidad y la conservación de estos conjuntos de datos son fundamentales para el rendimiento de los LM. Este campo se centra en refinar los métodos de recopilación y preparación de datos para mejorar la eficacia de los modelos.

Un desafío importante en el desarrollo de modelos de lenguaje efectivos es mejorar los conjuntos de datos de entrenamiento. Los conjuntos de datos de alta calidad son esenciales para entrenar modelos que se generalicen bien en diversas tareas, pero crear dichos conjuntos de datos es complejo. Implica filtrar contenido irrelevante o dañino, eliminar duplicados y seleccionar las fuentes de datos más útiles.

Los métodos existentes para la curación de conjuntos de datos suelen implicar el filtrado basado en heurísticas, la deduplicación y la obtención de datos a partir de amplios rastreos web. Si bien estos métodos han dado cierto éxito, a menudo necesitan puntos de referencia más estandarizados, lo que genera coherencia en la evaluación del rendimiento de los modelos de lenguaje. Esta variabilidad dificulta la determinación de las estrategias de curación de datos más eficaces, lo que obstaculiza el progreso en este campo.

Investigadores de Apple, la Universidad de Washington y muchas otras instituciones han presentado DataComp para modelos de lenguaje (DCLM) Para abordar estos problemas, recientemente han abierto el código fuente de los modelos y conjuntos de datos de DCIM en la plataforma Hugging Face. La versión de código abierto incluye DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0, y dclm-baseline-1.0-parquet. Este innovador banco de pruebas permite realizar experimentos controlados con grandes conjuntos de datos para mejorar los modelos de lenguaje. El marco DCLM incluye un corpus integral de 240 billones de tokens de Common Crawl, recetas de preentrenamiento efectivas basadas en el marco OpenLM y un amplio conjunto de 53 evaluaciones posteriores. Esta configuración proporciona un enfoque estandarizado para la curación de conjuntos de datos, lo que permite realizar experimentos consistentes y comparables.

DCLM ofrece un flujo de trabajo estructurado para los investigadores. Los participantes pueden elegir escalas que van desde 412M a 7B de parámetros y experimentar con estrategias de curación de datos, como la deduplicación, el filtrado y la mezcla de datos. Los investigadores pueden entrenar modelos en conjuntos de datos seleccionados utilizando una receta de entrenamiento estandarizada e hiperparámetros específicos. El rendimiento de estos modelos se evalúa luego en un conjunto de tareas posteriores, lo que proporciona una medida clara de la calidad del conjunto de datos. Este enfoque sistemático ayuda a identificar las estrategias de curación de datos más eficaces.

La introducción de DCLM ha generado mejoras notables en el entrenamiento de modelos lingüísticos. Por ejemplo, un conjunto de datos de referencia creado con DCLM permitió el entrenamiento de un modelo lingüístico de parámetros 7B desde cero. Este modelo logró una precisión de 5 intentos del 64 % en el punto de referencia MMLU con 2,6 billones de tokens de entrenamiento. Este rendimiento representa una mejora de 6,6 puntos porcentuales con respecto al modelo lingüístico de datos abiertos de última generación anterior, MAP-Neo, al tiempo que utilizaba un 40 % menos de recursos computacionales. El modelo de referencia de DCLM también tuvo un rendimiento comparable al de Mistral-7B-v0.3 y Llama 3 8B, que requerían significativamente más recursos computacionales.

La eficacia del marco DCLM se demuestra además por su escalabilidad. Los investigadores llevaron a cabo experimentos exhaustivos a diferentes escalas, desde 400 millones hasta más de 7 mil millones de parámetros, utilizando DCLM-Pool, un corpus de 240 billones de tokens derivados de Common Crawl. Estos experimentos destacaron el papel fundamental del filtrado basado en modelos en el ensamblaje de conjuntos de entrenamiento de alta calidad. El conjunto de datos de referencia DCLM, creado a través de este riguroso proceso, superó sistemáticamente a otros conjuntos de datos de código abierto como RefinedWeb y RedPajama en varias evaluaciones.

El equipo de investigación también exploró el impacto de varias técnicas de curación de datos. Compararon métodos de extracción de texto, como resiliparse y trafilatura, y descubrieron que estos enfoques mejoraron significativamente el rendimiento posterior en comparación con el texto preextraído de Common Crawl. El equipo investigó varias estrategias de filtrado de calidad basadas en modelos y finalmente determinó que el clasificador fastText OH-2.5 + ELI5 era el más eficaz, ya que proporcionaba un aumento sustancial en la precisión.

En conclusión, la introducción de DCLM permite a los investigadores realizar experimentos controlados e identificar las estrategias más eficaces para mejorar los modelos lingüísticos al proporcionar un enfoque estandarizado y sistemático para la conservación de conjuntos de datos. El marco DCLM establece un nuevo punto de referencia para la calidad de los conjuntos de datos y demuestra el potencial para lograr mejoras significativas en el rendimiento con recursos computacionales reducidos.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.