Los investigadores se centran cada vez más en la creación de sistemas que puedan manejar la exploración de datos multimodal, que combina datos estructurados y no estructurados. Esto implica analizar texto, imágenes, videos y bases de datos para responder consultas complejas. Estas capacidades son cruciales en la atención médica, donde los profesionales médicos interactúan con registros de pacientes, imágenes médicas e informes textuales. De manera similar, la exploración multimodal ayuda a interpretar bases de datos con metadatos, críticas textuales e imágenes de obras de arte en la curación o investigación de arte. La combinación perfecta de estos tipos de datos ofrece un potencial significativo para la toma de decisiones y la obtención de conocimientos.

Uno de los principales desafíos en este campo es permitir a los usuarios consultar datos multimodales utilizando lenguaje natural. Los sistemas tradicionales tienen dificultades para interpretar consultas complejas que involucran múltiples formatos de datos, como solicitar tendencias en tablas estructuradas mientras se analiza el contenido de imágenes relacionadas. Además, la ausencia de herramientas que proporcionen explicaciones claras de los resultados de las consultas dificulta que los usuarios confíen y validen los resultados. Estas limitaciones crean una brecha entre las capacidades avanzadas de procesamiento de datos y la usabilidad en el mundo real.

Las soluciones actuales intentan abordar estos desafíos utilizando dos enfoques principales. El primero integra múltiples modalidades en lenguajes de consulta unificados, como NeuralSQL, que incorpora funciones de lenguaje visual directamente en comandos SQL. El segundo utiliza flujos de trabajo agentes que coordinan varias herramientas para analizar modalidades específicas, ejemplificado por CAESURA. Si bien estos enfoques han hecho avanzar el campo, no logran optimizar la ejecución de tareas, garantizar la explicabilidad y abordar consultas complejas de manera eficiente. Estas deficiencias resaltan la necesidad de un sistema capaz de una adaptación dinámica y un razonamiento claro.

Investigadores de la Universidad de Ciencias Aplicadas de Zurich han presentado XMODE, un novedoso sistema diseñado para abordar estos problemas. XMODE permite la exploración de datos multimodal explicables utilizando un marco agente basado en Large Language Model (LLM). El sistema interpreta las consultas de los usuarios y las descompone en subtareas como generación de SQL y análisis de imágenes. Al crear flujos de trabajo representados como gráficos acíclicos dirigidos (DAG), XMODE optimiza la secuencia y ejecución de las tareas. Este enfoque mejora la eficiencia y la precisión en comparación con sistemas de última generación como CAESURA y NeuralSQL. Además, XMODE admite la replanificación de tareas, lo que le permite adaptarse cuando fallan componentes específicos.

La arquitectura de XMODE incluye cinco componentes clave: planificación y asignación de modelos expertos, ejecución y autodepuración, toma de decisiones, herramientas expertas y un repositorio de datos compartido. Cuando se recibe una consulta, el sistema construye un flujo de trabajo detallado de tareas, asignándolas a herramientas apropiadas como módulos de generación de SQL y modelos de análisis de imágenes. Estas tareas se ejecutan en paralelo siempre que sea posible, lo que reduce la latencia y los costos computacionales. Además, las capacidades de autodepuración de XMODE le permiten identificar y rectificar errores en la ejecución de tareas, lo que garantiza la confiabilidad. Esta adaptabilidad es fundamental para manejar flujos de trabajo complejos que involucran diversas modalidades de datos.

XMODE demostró un rendimiento superior durante las pruebas en dos conjuntos de datos. En un conjunto de datos de obras de arte, XMODE logró una precisión general del 63,33%, en comparación con el 33,33% de CAESURA. Se destacó en el manejo de tareas que requieren resultados complejos, como gráficos y estructuras de datos combinados, logrando una precisión del 100 % en la generación de resultados de gráficos de gráficos y de estructuras de datos de gráficos. Además, la capacidad de XMODE para ejecutar tareas en paralelo redujo la latencia a 3040 milisegundos, en comparación con los 5821 milisegundos de CAESURA. Estos resultados resaltan su eficiencia en el procesamiento de consultas en lenguaje natural en conjuntos de datos multimodales.

En el conjunto de datos de registros médicos electrónicos (EHR), XMODE logró una precisión del 51 %, superando a NeuralSQL en consultas de varias tablas, con una puntuación del 77,50 % en comparación con el 47,50 % de NeuralSQL. El sistema demostró un sólido rendimiento en el manejo de consultas binarias, logrando una precisión del 74%, significativamente superior al 48% de NeuralSQL en la misma categoría. La capacidad de XMODE para adaptar y replanificar tareas contribuyó a su sólido desempeño, haciéndolo particularmente efectivo en escenarios que requieren razonamiento detallado e integración multimodal.

XMODE aborda eficazmente las limitaciones de los sistemas de exploración de datos multimodales existentes combinando planificación avanzada, ejecución de tareas paralelas y replanificación dinámica. Su enfoque innovador permite a los usuarios consultar conjuntos de datos complejos de manera eficiente, garantizando transparencia y explicabilidad. Con mejoras demostradas en precisión, eficiencia y rentabilidad, XMODE representa un avance significativo en el campo y ofrece aplicaciones prácticas en áreas como la atención médica y la curación de arte.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata