Microsoft AI Research presenta MVoT: un marco multimodal para integrar el razonamiento visual y verbal en tareas complejas

El estudio de la inteligencia artificial ha sido testigo de avances transformadores en el razonamiento y la comprensión de tareas complejas. Los desarrollos más innovadores son grandes modelos de lenguaje (LLM) y modelos de lenguajes grandes multimodales (MLLM). Estos sistemas pueden procesar datos textuales y visuales, lo que les permite analizar tareas complejas. A diferencia de los enfoques tradicionales que basan sus habilidades de razonamiento en medios verbales, los sistemas multimodales intentan imitar la cognición humana combinando el razonamiento textual con el pensamiento visual y, por lo tanto, podrían usarse de manera más efectiva para resolver desafíos más variados.

El problema hasta ahora es que estos modelos no pueden interconectar el razonamiento textual y visual en entornos dinámicos. Los modelos desarrollados para el razonamiento funcionan bien con entradas basadas en texto o imágenes, pero no pueden ejecutarse simultáneamente cuando se ingresan ambas. Las tareas de razonamiento espacial como la navegación por laberintos o la interpretación de diseños dinámicos muestran debilidades en estos modelos. Estos modelos no pueden incluir capacidades de razonamiento integradas. Por lo tanto, crea limitaciones en la adaptabilidad e interpretabilidad de los modelos, especialmente cuando la tarea es comprender y manipular patrones visuales y las instrucciones dadas en palabras.

Se han propuesto varios enfoques para abordar estas cuestiones. Las indicaciones de cadena de pensamiento (CoT) mejoran el razonamiento al producir rastros textuales paso a paso. Está inherentemente basado en texto y no maneja tareas que requieran comprensión espacial. Otros enfoques son los métodos de entrada visual a través de herramientas externas, como subtítulos de imágenes o generación de gráficos de escenas, que permiten a los modelos procesar datos visuales y textuales. Si bien son efectivos hasta cierto punto, estos métodos dependen en gran medida de módulos visuales separados, lo que los hace menos flexibles y propensos a errores en tareas complejas.

Investigadores de Microsoft Research, la Universidad de Cambridge y la Academia de Ciencias de China introdujeron el marco de visualización multimodal del pensamiento (MVoT) para abordar estas limitaciones. Este novedoso paradigma de razonamiento permite que los modelos generen rastros de razonamiento visual intercalados con rastros verbales, ofreciendo un enfoque integrado del razonamiento multimodal. MVoT incorpora capacidades de pensamiento visual directamente en la arquitectura del modelo, eliminando así la dependencia de herramientas externas, convirtiéndolo en una solución más coherente para tareas de razonamiento complejas.

Utilizando Chameleon-7B, un MLLM autorregresivo optimizado para tareas de razonamiento multimodal, los investigadores implementaron MVoT. Este método implica la pérdida de discrepancia de tokens para cerrar la brecha de representación entre los procesos de tokenización de texto e imágenes para generar imágenes de calidad. MVoT procesa entradas multimodales paso a paso mediante la creación de rastros de razonamiento verbal y visual. Por ejemplo, en tareas espaciales como la navegación por laberintos, el modelo produce visualizaciones intermedias correspondientes a los pasos de razonamiento, mejorando tanto su interpretabilidad como su rendimiento. Esta capacidad nativa de razonamiento visual, integrada en el marco, lo hace más similar a la cognición humana, proporcionando así un enfoque más intuitivo para comprender y resolver tareas complejas.

MVoT superó a los modelos de última generación en extensos experimentos en múltiples tareas de razonamiento espacial, incluidos MAZE, MINI BEHAVIOR y FROZEN LAKE. El marco alcanzó una alta precisión del 92,95 % en tareas de navegación por laberintos, lo que supera los métodos tradicionales de CoT. En la tarea MINI BEHAVIOR que requiere comprender la interacción con diseños espaciales, MVoT alcanzó una precisión del 95,14%, lo que demuestra su aplicabilidad en entornos dinámicos. En la tarea FROZEN LAKE, que es conocida por ser compleja debido a los detalles espaciales finos, la solidez de MVoT alcanzó una precisión del 85,60 %, superando a CoT y otras líneas de base. MVoT mejoró consistentemente en escenarios desafiantes, especialmente aquellos que involucran patrones visuales complejos y razonamiento espacial.

Además de las métricas de desempeño, MVoT mostró una mejor interpretabilidad al generar rastros de pensamiento visual que complementan el razonamiento verbal. Esta capacidad permitió a los usuarios seguir visualmente el proceso de razonamiento del modelo, lo que facilitó la comprensión y verificación de sus conclusiones. A diferencia de CoT, que se basa únicamente en la descripción textual, el enfoque de razonamiento multimodal de MVoT redujo los errores causados ​​por una representación textual deficiente. Por ejemplo, en la tarea FROZEN LAKE, MVoT mantuvo un rendimiento estable con una mayor complejidad en relación con su entorno, demostrando así robustez y confiabilidad.

Por lo tanto, este estudio redefine el alcance de las capacidades de razonamiento de la inteligencia artificial con MVoT al integrar texto y visión en tareas de razonamiento. El uso de la pérdida de discrepancia de tokens garantiza que el razonamiento visual se alinee perfectamente con el procesamiento textual. Esto cerrará la brecha crítica en los métodos actuales. Un rendimiento superior y una mejor interpretabilidad marcarán a MVoT como un paso histórico hacia el razonamiento multimodal que puede abrir puertas a soluciones más complejas y desafiantes. AI sistemas en escenarios del mundo real.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.