Para acelerar y perfeccionar la toma de decisiones en un mercado global acelerado, las empresas pueden implementar modelos de inteligencia artificial generativa para ayudar a resumir e interpretar los gráficos que a menudo llenan los resúmenes de mercado y los informes financieros.
Pero incluso los últimos modelos de visión y lenguaje a veces tienen dificultades con esta tarea, ya que requiere un modelo para integrar la comprensión visual, numérica y lingüística. Una empresa que invierte en un modelo de última generación aún podría recibir información inexacta o incompleta.
Para llenar esta brecha de rendimiento, investigadores del MIT y el Laboratorio de Investigación en Computación del MIT-IBM desarrollaron un recurso multifacético para usuarios de IA que está diseñado específicamente para enseñar a los modelos de visión y lenguaje (VLM) cómo interpretar gráficos de manera efectiva.
Utilizaron un método novedoso de generación de datos para crear un conjunto de datos de última generación que incluye más de un millón de gráficos variados. El conjunto de datos también codifica muchos componentes visuales, lingüísticos y numéricos de cada imagen del gráfico, lo que permite a los modelos razonar de manera sólida sobre la información de un gráfico.
Los investigadores utilizaron este conjunto de datos, llamado ChartNet, para entrenar una serie de VLM de código abierto. Muchos de estos modelos más pequeños superaron significativamente a los modelos comerciales de órdenes de magnitud más grandes en tareas como la extracción de datos y el resumen de gráficos.
Al permitir que los modelos de código abierto superen a sus homólogos comerciales, ChartNet podría permitir que las pequeñas empresas con presupuestos limitados utilicen más fácilmente la IA. El conjunto de datos de código abierto se puede utilizar para mejorar las capacidades de los modelos de IA para tareas como el análisis de tendencias comerciales y la interpretación de cifras científicas.
“Desarrollamos ChartNet para que sea una ventanilla única para la comprensión de gráficos, que cubra básicamente cualquier cosa que un modelo de IA y un profesional que esté entrenando ese modelo puedan necesitar. Esperamos que nuestro trabajo motive a los investigadores a lograr un rendimiento de vanguardia con modelos más pequeños que no requieran cantidades infinitas de cálculo”, dice Jovana Kondic, estudiante graduada en ingeniería eléctrica e informática (EECS) del MIT y autora principal de un artículo sobre ChartNet.
En el artículo se unen a ella muchos coautores del MIT, el MIT-IBM Computing Research Lab e IBM Research, incluido Pengyuan Li, miembro del personal de investigación de IBM Research; Dhiraj Joshi, científico senior de IBM Research; Isaac Sánchez, ingeniero de software de IBM Research; Aude Oliva, directora de participación estratégica de la industria en el MIT Schwarzman College of Computing, directora del MIT-IBM Computing Research Lab y científica investigadora senior en el Computer Science and Artificial Intelligence Laboratory (CSAIL); y Rogerio Feris, científico principal y director del Laboratorio de Investigación en Computación del MIT-IBM. La investigación se presentará en la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones.
Un cuello de botella en el conjunto de datos
Los investigadores han logrado grandes avances en el desarrollo de modelos de IA generativa que destacan en el procesamiento del lenguaje natural y el razonamiento sobre imágenes naturales. Pero se ha trabajado menos en interpretar datos multimodales complejos contenidos en gráficos, dice Kondic.
Sin embargo, para las empresas grandes y pequeñas de casi todos los sectores, la comprensión de los gráficos es una tarea fundamental.
“La industria financiera prospera con los gráficos. Si los modelos de visión y lenguaje pueden extraer información de los gráficos, como descripciones de tendencias, eso facilita muchos flujos de trabajo que ocurren posteriormente”, dice Joshi.
La falta de datos de entrenamiento de alta calidad es un obstáculo importante que frena el desarrollo de VLM que puedan interpretar gráficos con precisión. Muchos conjuntos de datos contienen imágenes de gráficos limitadas extraídas de Internet y, a menudo, carecen de la escala necesaria y de la información adicional para ayudar a un modelo a interpretar los datos subyacentes.
“Un modelo de visión y lenguaje, a diferencia de nuestro cerebro, puede necesitar ver miles de ejemplos durante el entrenamiento para reconocer algo de manera confiable como un gráfico de líneas”, dice Kondic.
Los investigadores intentaron superar esas deficiencias generando datos sintéticos. Los datos sintéticos se generan artificialmente mediante algoritmos para imitar las propiedades estadísticas de los datos reales.
El conjunto de datos ChartNet contiene más de un millón de imágenes de gráficos de alta calidad, junto con el código correspondiente utilizado para generar cada gráfico, una descripción textual y una tabla que contiene su información numérica. Además, cada punto de datos incluye pares de preguntas y respuestas para enseñar al modelo cómo responder correctamente preguntas sobre la imagen del gráfico.
“Estos modos adicionales de datos guían al modelo para conectar y alinear las diferentes piezas de información que codifica la imagen del gráfico”, dice Kondic.
Generación de datos
Para construir ChartNet, los investigadores crearon un proceso de generación de datos sintéticos de dos pasos.
Primero, su sistema automatizado traduce cualquier conjunto preexistente de imágenes de gráficos en código. Luego, el sistema aumenta iterativamente ese código para cambiar diferentes aspectos de cada gráfico, como el tipo de gráfico, los valores de los datos, el tema, los colores, etc.
“Podemos partir de un único gráfico que utilizamos como semilla y generar cientos de ampliaciones del mismo. Así es como pudimos construir un conjunto de datos con más de un millón de imágenes diversas”, explica Kondic.
También incorporaron un proceso de control de calidad automatizado para garantizar que los datos sintéticos sean de alta calidad. Este proceso verifica que el código sea ejecutable y que las imágenes de los gráficos renderizados sean precisas y limpias.
“No queremos limitarnos a generar muestras diversas. También queremos que la información se presente de forma significativa”, afirma.
ChartNet también incluye una selección de puntos de datos de gráficos anotados por expertos humanos. Esto proporciona acceso a tipos adicionales de gráficos y datos de respaldo que tienen garantías de validez.
Un profesional podría utilizar los datos anotados para ajustar un VLM existente, aumentando aún más el rendimiento de una aplicación específica, añade Joshi.
Los investigadores probaron ChartNet entrenando la serie de modelos Granite Vision de IBM, así como varios otros modelos de código abierto de varios tamaños, y evaluándolos en diversas tareas de interpretación de gráficos. El conjunto de datos mejoró la precisión de todos los modelos en la reconstrucción de gráficos, la extracción de datos de gráficos, el resumen de gráficos y la respuesta a preguntas de gráficos.
Con ChartNet, los modelos pequeños de código abierto superaron consistentemente a los modelos comerciales mucho más grandes.
“Muchos conjuntos de datos de entrenamiento anteriores solo se centraban en responder preguntas simples sobre un gráfico. Intentamos ir más allá con ChartNet generando datos que respalden todos los aspectos de la comprensión sólida de los gráficos”, dice Kondic.
En el futuro, los investigadores planean continuar expandiendo ChartNet incorporando datos con niveles adicionales de complejidad. También quieren aprovechar los comentarios de la comunidad investigadora.
Esta investigación fue financiada, en parte, por el Laboratorio de Investigación en Computación del MIT-IBM.