Los investigadores enseñan a una IA a escribir mejores títulos de gráficos |  Noticias del MIT

Los títulos de gráficos que explican tendencias y patrones complejos son importantes para mejorar la capacidad del lector para comprender y retener los datos que se presentan. Y para las personas con discapacidad visual, la información contenida en un título suele ser el único medio para comprender el gráfico.

Pero escribir subtítulos eficaces y detallados es un proceso que requiere mucha mano de obra. Si bien las técnicas de subtítulos automáticos pueden aliviar esta carga, a menudo tienen dificultades para describir características cognitivas que proporcionen contexto adicional.

Para ayudar a las personas a crear subtítulos de gráficos de alta calidad, los investigadores del MIT han desarrollado un conjunto de datos para mejorar los sistemas de subtítulos automáticos. Con esta herramienta, los investigadores podrían enseñar un modelo de aprendizaje automático para variar el nivel de complejidad y el tipo de contenido incluido en el título de un gráfico según las necesidades de los usuarios.

Los investigadores del MIT descubrieron que los modelos de aprendizaje automático entrenados para los subtítulos automáticos con su conjunto de datos generaban constantemente subtítulos que eran precisos, semánticamente ricos y describían tendencias de datos y patrones complejos. Los análisis cuantitativos y cualitativos revelaron que sus modelos subtitulaban gráficos de manera más efectiva que otros sistemas de subtítulos automáticos.

El objetivo del equipo es proporcionar el conjunto de datos, llamado VisText, como una herramienta que los investigadores puedan utilizar mientras trabajan en el espinoso problema de los subtítulos automáticos de gráficos. Estos sistemas automáticos podrían ayudar a proporcionar subtítulos para gráficos en línea sin subtítulos y mejorar la accesibilidad para las personas con discapacidad visual, dice la coautora principal Angie Boggust, estudiante de posgrado en ingeniería eléctrica e informática en el MIT y miembro del Grupo de Visualización en Ciencias de la Computación y Laboratorio de Inteligencia Artificial (CSAIL).

“Hemos tratado de incorporar muchos valores humanos en nuestro conjunto de datos para que cuando nosotros y otros investigadores construyamos sistemas automáticos de subtítulos de gráficos, no terminemos con modelos que no son lo que la gente quiere o necesita”, dijo. dice.

Boggust se une al papel por el coautor principal y compañero de estudios de posgrado Benny J. Tang y el autor principal Arvind Satyanarayan, profesor asociado de informática en el MIT que dirige el Grupo de Visualización en CSAIL. La investigación se presentará en la Reunión Anual de la Asociación de Lingüística Computacional.

Análisis centrado en el ser humano

Los investigadores se inspiraron para desarrollar VisText a partir de trabajo prioritario en el Grupo de Visualización que exploró lo que constituye un buen título de gráfico. En ese estudio, los investigadores encontraron que los usuarios videntes y los usuarios ciegos o con baja visión tenían diferentes preferencias por la complejidad del contenido semántico de un título.

El grupo quería incorporar ese análisis centrado en el ser humano a la investigación de los subtítulos automáticos. Para ello, desarrollaron VisText, un conjunto de datos de gráficos y subtítulos asociados que podrían usarse para entrenar modelos de aprendizaje automático para generar subtítulos precisos, semánticamente ricos y personalizables.

Desarrollar sistemas eficaces de subtítulos automáticos no es una tarea fácil. Los métodos de aprendizaje automático existentes a menudo intentan subtitular los gráficos como lo harían con una imagen, pero las personas y los modelos interpretan las imágenes naturales de manera diferente a cómo leemos los gráficos. Otras técnicas omiten por completo el contenido visual y subtitulan un gráfico utilizando su tabla de datos subyacente. Sin embargo, estas tablas de datos a menudo no están disponibles después de que se publican los gráficos.

Dadas las deficiencias del uso de imágenes y tablas de datos, VisText también representa gráficos como gráficos de escena. Los gráficos de escena, que se pueden extraer de una imagen de gráfico, contienen todos los datos del gráfico pero también incluyen contexto de imagen adicional.

“Un gráfico de escena es lo mejor de ambos mundos: contiene casi toda la información presente en una imagen y, al mismo tiempo, es más fácil de extraer de las imágenes que de las tablas de datos. Como también es texto, podemos aprovechar los avances en los modelos modernos de lenguaje grande para los subtítulos”, explica Tang.

Compilaron un conjunto de datos que contiene más de 12.000 gráficos, cada uno representado como una tabla de datos, una imagen y un gráfico de escena, así como leyendas asociadas. Cada gráfico tiene dos títulos separados: un título de bajo nivel que describe la construcción del gráfico (como los rangos de sus ejes) y un título de nivel superior que describe estadísticas, relaciones en los datos y tendencias complejas.

Los investigadores generaron subtítulos de bajo nivel utilizando un sistema automatizado y subtítulos de alto nivel de trabajadores humanos.

“Nuestros subtítulos se basaron en dos piezas clave de investigaciones previas: las pautas existentes sobre Descripciones accesibles de medios visuales. y un modelo conceptual de nuestro grupo para categorizar el contenido semántico. Esto aseguró que nuestros subtítulos incluyeran importantes elementos gráficos de bajo nivel, como ejes, escalas y unidades para lectores con discapacidades visuales, manteniendo al mismo tiempo la variabilidad humana en la forma en que se pueden escribir los subtítulos”, dice Tang.

Traducir gráficos

Una vez que reunieron imágenes de gráficos y subtítulos, los investigadores utilizaron VisText para entrenar cinco modelos de aprendizaje automático para subtítulos automáticos. Querían ver cómo cada representación (imagen, tabla de datos y gráfico de escena) y las combinaciones de las representaciones afectaban la calidad del título.

“Se puede pensar en un modelo de subtítulos de gráficos como un modelo para la traducción de idiomas. Pero en lugar de decir, traduzca este texto alemán al inglés, estamos diciendo que traduzca este ‘lenguaje de gráficos’ al inglés”, dice Boggust.

Sus resultados mostraron que los modelos entrenados con gráficos de escenas funcionaron tan bien o mejor que los entrenados con tablas de datos. Dado que los gráficos de escenas son más fáciles de extraer de los gráficos existentes, los investigadores argumentan que podrían ser una representación más útil.

También entrenaron modelos con subtítulos de bajo y alto nivel por separado. Esta técnica, conocida como ajuste de prefijo semántico, les permitió enseñar al modelo a variar la complejidad del contenido del título.

Además, realizaron un examen cualitativo de los subtítulos producidos por su método de mejor rendimiento y clasificaron seis tipos de errores comunes. Por ejemplo, se produce un error direccional si un modelo dice que una tendencia está disminuyendo cuando en realidad está aumentando.

Esta evaluación cualitativa sólida y detallada fue importante para comprender cómo el modelo estaba cometiendo sus errores. Por ejemplo, al utilizar métodos cuantitativos, un error direccional podría incurrir en la misma penalización que un error de repetición, donde el modelo repite la misma palabra o frase. Pero un error direccional podría ser más engañoso para un usuario que un error de repetición. El análisis cualitativo les ayudó a comprender este tipo de sutilezas, afirma Boggust.

Este tipo de errores también exponen las limitaciones de los modelos actuales y plantean consideraciones éticas que los investigadores deben considerar mientras trabajan para desarrollar sistemas de subtítulos automáticos, añade.

Se ha demostrado que los modelos generativos de aprendizaje automático, como los que impulsan ChatGPT, alucinan o brindan información incorrecta que puede ser engañosa. Si bien existe un claro beneficio al utilizar estos modelos para subtitular automáticamente los gráficos existentes, podría dar lugar a la difusión de información errónea si los gráficos se subtitulan incorrectamente.

“Tal vez esto signifique que no nos limitamos a subtitular todo lo que vemos a la vista con IA. En su lugar, tal vez proporcionemos estos sistemas de subtítulos automáticos como herramientas de autoría para que las personas puedan editar. Es importante pensar en estas implicaciones éticas durante todo el proceso de investigación, no sólo al final, cuando tenemos un modelo para implementar”, afirma.

Boggust, Tang y sus colegas quieren seguir optimizando los modelos para reducir algunos errores comunes. También quieren ampliar el conjunto de datos de VisText para incluir más gráficos y gráficos más complejos, como aquellos con barras apiladas o varias líneas. Y también les gustaría obtener información sobre lo que estos modelos de subtítulos automáticos están aprendiendo realmente sobre los datos de los gráficos.

Esta investigación fue apoyada, en parte, por un premio Google Research Scholar, la Fundación Nacional de Ciencias, la Iniciativa MLA@CSAIL y el Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos.