Blog Banner 1.png

El aprendizaje automático se basa en los datos como componente básico. Los nuevos conjuntos de datos son un factor clave en la investigación y el desarrollo de modelos innovadores, ya que impulsan los avances en este campo. El entrenamiento de modelos más grandes en conjuntos de datos más grandes ha dado como resultado un aumento significativo en el costo informático de los experimentos de IA con el tiempo. Actualmente, algunos de los conjuntos de datos más influyentes se producen extrayendo texto de toda la Internet de acceso público. Algunas de las bases de datos más grandes jamás construidas generalmente se presentan sin documentación de su contenido, solo una explicación de cómo se generaron.

Esta es una distinción crucial, ya que actualmente los modelos se entrenan en grandes corpus de texto sin ningún conocimiento de los conceptos, temas, toxicidad o información privada que puede incluirse. Mientras tanto, personas de todo el mundo utilizan ampliamente los modelos lingüísticos a diario. Dado que estos sistemas de IA tienen una influencia directa en la vida de las personas, ahora es fundamental comprender tanto sus ventajas como sus desventajas. Los modelos sólo pueden aprender de los datos con los que fueron entrenados, pero la enorme cantidad y la falta de disponibilidad pública de corpus de entrenamiento previo dificultan su análisis. Un puñado de dimensiones importantes suelen ser el foco del trabajo que evalúa los contenidos de los corpus a escala web y, lo que es más importante, es necesario realizar más trabajo analizando varios conjuntos de datos en las mismas dimensiones.

Como resultado, antes de decidir qué conjunto o conjuntos de datos emplear, los profesionales del aprendizaje automático necesitan métodos más útiles para describir las distinciones entre ellos. En este estudio, investigadores del Instituto Allen de IA, la Universidad de Washington y la Universidad de California proponen utilizar una colección de herramientas llamada WIMBD: WHAT’S IN MY BIG DATA, que ayuda a los profesionales a examinar rápidamente conjuntos masivos de datos lingüísticos para investigar el contenido de grandes corpus de texto. Además, utilizan esta tecnología para ofrecer algunas de las primeras medidas directamente comparables en varios conjuntos de datos a escala web.

WIMBD consta de dos partes: (1) una herramienta de búsqueda basada en índices de Elasticsearch (ES) que permite el acceso programático para buscar documentos que contengan una consulta. ES es un motor de búsqueda que permite encontrar cadenas dentro de un corpus junto con los textos en los que aparecieron y cuántas veces. (2) Una capacidad de recuento creada por MapReduce que permite una iteración rápida en todo un conjunto de datos y la extracción de datos pertinentes, como la distribución de longitudes de caracteres de documentos, duplicados, recuentos de dominios, la identificación de información de identificación personal (PII) y más. . El código de WIMBD es de código abierto y se puede acceder a él en github.com/allenai/wimbd. Es extensible y puede usarse para indexar, contar y analizar diferentes corpus a gran escala. Realizaron dieciséis estudios en 10 corpus distintos, incluidos C4, The Pile y RedPajama, que se utilizan para entrenar modelos de lenguaje utilizando estas técnicas.

Clasifican sus análisis en cuatro categorías:

  1. Estadísticas de datos (por ejemplo, número de tokens y distribución de dominios).
  2. Calidad de los datos (p. ej., medición de documentos duplicados y n-gramas más frecuentes).
  3. Mediciones relevantes para la comunidad y la sociedad (por ejemplo, contaminación de referencia y detección de información de identificación personal).
  4. Análisis entre corpus (p. ej., verificar la superposición de documentos y comparar el n-grama más común).

La Figura 1 es una representación de WIMBD. En su trabajo se presentan numerosos conocimientos sobre la distribución de datos y las anomalías.

Figura 1: Descripción general de WIMBD. Proporcionan dos funcionalidades principales, Count y Search, que facilitan el procesamiento rápido y brindan acceso a vastos corpus de texto, lo que permite una multitud de análisis.

El examen de la distribución de la longitud de los documentos, por ejemplo, revela anomalías en las que algunas longitudes están sobrerrepresentadas en comparación con longitudes cercanas; Estas anomalías frecuentemente se relacionan con texto que se crea a partir de plantillas casi exactamente dos veces o con documentos que se han cortado intencionalmente a una cierta longitud de caracteres. Otro ejemplo serían las secuencias de puntuación, a menudo los n-gramas más comunes. Por ejemplo, en The Pile, los 10 gramos más comunes son un guión (‘-‘) repetido diez veces. WIMBD proporciona información práctica para seleccionar corpus de mayor calidad, así como documentación retroactiva y anclaje del comportamiento del modelo a sus datos de entrenamiento. Wimbd.apps.allenai.org tiene una demostración interactiva que destaca algunos de sus análisis y se publica junto con esta publicación.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.