Conozca ‘AboutMe’: un nuevo conjunto de datos y marco de inteligencia artificial que utiliza autodescripciones en páginas web para documentar los efectos de los filtros de datos de preentrenamiento en inglés

Con los avances en el procesamiento del lenguaje natural y la generación del lenguaje natural, los modelos de lenguaje grande (LLM) se utilizan con frecuencia en aplicaciones del mundo real. Con su capacidad para imitar el comportamiento humano, estos modelos, con su naturaleza de propósito general, han entrado en todos los campos y dominios.

Aunque estos modelos han ganado una atención significativa, representan una colección restringida y sesgada de puntos de vista y conocimientos humanos. La composición de los datos de preentrenamiento es la razón de este sesgo, ya que tiene un gran impacto en el comportamiento del modelo.

Los investigadores se han esforzado por centrarse adicionalmente en comprender y documentar las transformaciones realizadas en los datos antes del entrenamiento previo. La curación de datos previa al entrenamiento es un proceso de varios pasos con múltiples puntos de decisión que frecuentemente se basan en juicios subjetivos sobre la calidad del texto o el rendimiento frente a puntos de referencia.

En un estudio reciente, un equipo de investigadores del Instituto Allen de IA, la Universidad de California, Berkeley, la Universidad Emory, la Universidad Carnegie Mellon y la Universidad de Washington introdujeron un nuevo conjunto de datos y marco llamado AboutMe. El estudio destaca las numerosas suposiciones incuestionables que existen en los flujos de trabajo de curación de datos. Con AboutMe, el equipo intentó documentar los efectos del filtrado de datos en textos basados ​​en contextos sociales y geográficos.

La falta de datos sociodemográficos extensos y autoinformados asociados con los datos del lenguaje es uno de los problemas que enfrenta el análisis sociolingüístico en el procesamiento del lenguaje natural. El texto se puede rastrear hasta fuentes generales como Wikipedia, pero en un nivel más granular, con frecuencia se desconoce quién creó la información. El equipo de este estudio encontró sitios web, en particular páginas “Acerca de mí”, utilizando patrones preexistentes en los datos web. Esto permite una comprensión sin precedentes de qué idioma está representado en el texto extraído de la web.

Utilizando datos de las secciones “acerca de mí” de los sitios web, el equipo ha realizado análisis sociolingüísticos para medir los intereses temáticos, el posicionamiento de individuos u organizaciones, los roles sociales autoidentificados y las ubicaciones geográficas asociadas de los autores de los sitios web. En estas páginas web se han utilizado diez filtros de calidad y de identificación en inglés de investigaciones anteriores sobre el desarrollo de LLM para examinar el efecto del filtrado en las páginas conservadas o eliminadas.

El equipo compartió que su objetivo principal era encontrar tendencias en el comportamiento relacionado con el origen del sitio web tanto dentro como entre los filtros. Los resultados han demostrado que las preferencias implícitas por áreas temáticas específicas se muestran mediante filtros de calidad basados ​​en modelos, lo que hace que el texto relacionado con diversas profesiones y vocaciones se elimine a distintos ritmos. Además, las técnicas de filtrado que suponen que las páginas son monolingües pueden eliminar involuntariamente contenido de partes del mundo no angloparlantes.

En conclusión, esta investigación ha resaltado las complejidades involucradas en el filtrado de datos durante el desarrollo de un LLM y sus consecuencias para la representación de diversos puntos de vista en modelos lingüísticos. El objetivo principal del estudio es crear conciencia sobre los intrincados detalles que intervienen en los procedimientos de curación de datos previos al entrenamiento, particularmente cuando se consideran factores sociales. El equipo ha hecho hincapié en la necesidad de realizar más investigaciones sobre los procedimientos de curación de datos previos al entrenamiento y sus implicaciones sociales.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.