DataVisT5: un potente modelo de lenguaje preentrenado para tareas de visualización de datos sin inconvenientes

Las visualizaciones de datos (DV) se han convertido en una práctica común en la era de los macrodatos, y las utilizan diversas aplicaciones e instituciones para transmitir información a partir de datos brutos masivos. Sin embargo, crear DV adecuadas sigue siendo una tarea difícil, incluso para los expertos, ya que requiere experiencia en análisis visual y familiaridad con los datos del dominio. Además, los usuarios deben dominar lenguajes de visualización declarativos (DVL) complejos para definir con precisión las especificaciones de DV. Para reducir las barreras a la creación de DV y liberar su potencial para el público en general, los investigadores han propuesto una variedad de tareas relacionadas con DV que han atraído una atención significativa tanto de la industria como del mundo académico.

Las investigaciones existentes han explorado diversos enfoques para mitigar los desafíos en las tareas relacionadas con la visualización de datos. Los sistemas de conversión de texto a visualización iniciales dependían de reglas o plantillas predefinidas, que eran eficientes pero limitadas en el manejo de la variabilidad lingüística de las consultas de los usuarios. Para superar estas limitaciones, los investigadores han recurrido a métodos basados ​​en redes neuronales. Por ejemplo, Data2Vis conceptualiza la generación de visualización como una tarea de traducción de secuencias, empleando una arquitectura neuronal de codificador-decodificador. De manera similar, RGVisNet inicia el proceso de conversión de texto a visualización recuperando un prototipo de consulta relevante, refinándolo a través de un modelo de red neuronal de gráficos y luego ajustando la consulta para que se ajuste al escenario de destino. Al mismo tiempo, se ha propuesto la conversión de texto a texto como una tarea complementaria, con mejoras de rendimiento demostradas a través de un marco de entrenamiento dual. Los investigadores también han definido la tarea de respuesta a preguntas de formato libre sobre visualizaciones de datos, con el objetivo de mejorar la comprensión de los datos y sus visualizaciones. Además, varios estudios se han centrado en generar descripciones textuales para visualizaciones de datos, adoptando marcos de modelos de secuencia a secuencia y empleando arquitecturas basadas en transformadores para traducir datos visuales en resúmenes en lenguaje natural.

Investigadores de PolyU, WeBank Co., Ltd y HKUST proponen un modelo de lenguaje preentrenado (PLM) eficaz llamado DatosVisT5Basándose en la arquitectura T5 centrada en el texto, DataVisT5 mejora el proceso de preentrenamiento al incorporar una amplia gama de conjuntos de datos multimodales que integran el lenguaje natural con el conocimiento de visualización de datos, incluidas las consultas DV, los esquemas de bases de datos y las tablas. Inspirados por los grandes modelos de lenguaje que han incorporado código de programación en sus datos de preentrenamiento, los investigadores emplean CodeT5+ como punto de control de inicio para DataVisT5, ya que se ha entrenado con datos de código. Para reducir la complejidad del entrenamiento, los investigadores aplican la filtración del esquema de base de datos a nivel de tabla. Para superar los desafíos de consistencia de formato entre la visualización de datos y las modalidades textuales, DataVisT5 introduce un formato de codificación unificado para el conocimiento DV que facilita la convergencia de las modalidades de texto y DV. Además, los objetivos de preentrenamiento para DataVisT5 incluyen el enfoque de corrupción de intervalo de Modelado de lenguaje enmascarado (MLM) utilizado por el modelo T5 original, así como un objetivo de corpus dual bidireccional que opera en emparejamientos de origen-destino. Después del entrenamiento previo con objetivos mixtos, los investigadores realizan un ajuste fino de múltiples tareas de DataVisT5 en tareas relacionadas con DV, incluyendo texto a vis, vis a texto, FeVisQA y tabla a texto.

En resumen, las principales contribuciones de esta investigación son:

  • Los investigadores presentaron y lanzaron DataVisT5: el primer PLM diseñado para la comprensión conjunta de texto y DV.
  • Se mejoró la arquitectura T5 centrada en texto para manejar información intermodal. Sus objetivos de preentrenamiento híbridos están concebidos para desentrañar la compleja interacción entre DV y datos textuales, fomentando una integración más profunda de información intermodal.
  • Experimentos exhaustivos en conjuntos de datos públicos para diversas tareas de DV, que incluyen conversión de texto a vis, vis a texto, FeVisQA y tabla a texto, demuestran que DatosVisT5 (El método propuesto) se destaca en entornos de múltiples tareas, superando consistentemente líneas de base sólidas y estableciendo nuevos desempeños SOTA.

Los investigadores también han proporcionado definiciones básicas de varios conceptos fundamentales relacionados con la visualización de datos para que los usuarios tengan una comprensión profunda del método propuesto.

Preguntas sobre lenguaje natural Permitir a los usuarios formular consultas de forma intuitiva, incluso sin conocimientos especializados de DV o programación. Lenguajes de visualización declarativoscomo Vega-Lite y ggplot2, proporcionan un conjunto de especificaciones para definir la construcción de visualizaciones, incluidos tipos de gráficos, colores, tamaños y otras propiedades visuales. Especificaciones de visualizacióncodificados en formato JSON, describen el conjunto de datos y sus atributos visuales según la sintaxis de un DVL específico. consulta de visualización de datos El marco introduce un formato de consulta similar a SQL para encapsular el espectro completo de DVL potenciales, lo que permite la conversión entre diferentes especificaciones de visualización. Finalmente, el gráficos de visualización de datos son las representaciones visuales, como dispersos, barras o mapas, que transmiten los datos resumidos y la información definida por la especificación de visualización.

El método propuesto DataVisT5 sigue un proceso integral que comprende cinco etapas principales: (1) filtración del esquema de la base de datos, (2) codificación del conocimiento DV, (3) codificación estandarizada, (4) preentrenamiento del modelo y (5) ajuste fino del modelo. El proceso de filtración del esquema de la base de datos identifica las tablas a las que se hace referencia en la pregunta en lenguaje natural dada comparando los n-gramas extraídos del esquema de la base de datos con los del texto. Esto permite la adquisición de un esquema de subbase de datos que está alineado semánticamente. La fase de codificación del conocimiento DV luego linealiza el conocimiento DV, incluidas las consultas DV, los esquemas de la base de datos y las tablas, en un formato unificado. La etapa de codificación estandarizada normaliza este conocimiento DV para facilitar un aprendizaje más eficiente. El corpus resultante, en su forma unificada, se utiliza luego para preentrenar el modelo DataVisT5 propuesto. Finalmente, el DataVisT5 preentrenado se somete a un ajuste fino multitarea en varias tareas relacionadas con DV.

Filtración de esquemas de bases de datos La técnica combina n-gramas entre la pregunta en lenguaje natural y las tablas de la base de datos, identificando elementos de esquema relevantes y extrayendo un subesquema para minimizar la pérdida de información durante la integración de la visualización de datos y las modalidades de texto.

Para abordar la brecha entre la modalidad de texto y DV, los investigadores proponen un formato unificado para Representación del conocimiento DVlo que permite que los modelos utilicen un entrenamiento previo extenso en conjuntos de datos más pequeños y mitiguen la disminución del rendimiento debido a la heterogeneidad de los datos durante el entrenamiento de múltiples tareas.

Para mitigar las inconsistencias estilísticas en las consultas de visualización de datos generadas manualmente, los investigadores implementaron una estrategia de preprocesamiento. Esto incluye estandarizar la notación de columnas, dar formato a paréntesis y comillas, manejar cláusulas de ordenación, reemplazar alias de tablas con nombres reales y convertir toda la consulta a minúsculas. Estos pasos ayudan a mitigar los desafíos de aprendizaje que plantean los diversos hábitos de anotación de múltiples anotadores, lo que garantiza un formato más consistente para el conocimiento de DV.

Los investigadores emplean una estrategia de preentrenamiento de corpus dual bidireccional, donde el modelo se entrena para traducir corpus de origen y destino seleccionados aleatoriamente en ambas direcciones, mejorando la capacidad del modelo para aprender la relación entre el texto y el conocimiento de visualización de datos.

Los investigadores emplean la mezcla de temperaturas para combinar datos de entrenamiento de todas las tareas, equilibrando la influencia de cada tarea y alentando al modelo a aprender representaciones beneficiosas en varios corpus, lo que conduce a una mejor generalización y solidez en el manejo de diversas tareas de visualización de datos.

DataVisT5 demuestra mejoras significativas con respecto a las técnicas existentes, como Seq2Vis, Transformer, RGVisNet, ncNet y GPT-4. En experimentos exhaustivos, este enfoque logró un notable aumento del 46,15 % en la métrica EM en conjuntos de datos sin operaciones de unión en comparación con el modelo RGVisNet de última generación anterior. Además, DataVisT5 superó al enfoque de aprendizaje en contexto que utiliza GPT-4 en escenarios que involucran operaciones de unión, mejorando la métrica EM en un 44,59 % y un 49,2 % respectivamente. Cabe destacar que, en estos desafiantes escenarios de operaciones de unión en los que otros modelos han tenido dificultades históricamente, DataVisT5 logró un EM impresionante de 0,3451. El estudio de ablación destaca la eficacia del enfoque propuesto, con modelos ajustados de 220M y 770M parámetros que superan constantemente al modelo CodeT5+ ajustado. Estos resultados subrayan la comprensión superior de DataVisT5 en lo que respecta a la sintaxis y la semántica de consultas DV, beneficiándose del entrenamiento previo de objetivos híbridos.

En este estudio, los investigadores han propuesto un modelo de lenguaje preentrenado eficaz llamado DatosVisT5diseñado específicamente para mejorar la integración de información intermodal en el conocimiento de DV y las asociaciones de lenguaje natural. DataVisT5 presenta un mecanismo único para capturar esquemas de bases de datos altamente relevantes a partir de menciones de tablas en lenguaje natural, unificando y normalizando de manera efectiva la codificación del conocimiento de DV, incluidas las consultas de DV, los esquemas de bases de datos y las tablas. Los sólidos objetivos de preentrenamiento híbridos empleados en este modelo ayudan a desentrañar la compleja interacción entre DV y datos textuales, lo que fomenta una integración más profunda de los conocimientos intermodales.

Al ampliar la arquitectura T5 centrada en texto para procesar de forma adecuada la información intermodal, DataVisT5 aborda múltiples tareas relacionadas con la visualización de datos con un rendimiento notable. Los amplios resultados experimentales demuestran que DataVisT5 supera de forma constante a los modelos de última generación en una amplia gama de tareas de DV, lo que amplía las aplicaciones de los modelos de lenguaje entrenados previamente y amplía los límites de lo que se puede lograr en la visualización e interpretación automatizadas de datos. Esta investigación representa un avance significativo en el campo y abre nuevas vías para una mayor exploración e innovación.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.