La IA multimodal necesita más que soporte de modalidad: los investigadores proponen a nivel general y un banco general para evaluar la verdadera sinergia en modelos generalistas

La inteligencia artificial ha crecido más allá de los sistemas centrados en el lenguaje, evolucionando en modelos capaces de procesar múltiples tipos de entrada, como texto, imágenes, audio y video. Esta área, conocida como aprendizaje multimodal, tiene como objetivo replicar la capacidad humana natural para integrar e interpretar datos sensoriales variados. A diferencia de los modelos de IA convencionales que manejan una sola modalidad, los generalistas multimodales están diseñados para procesar y responder a través de formatos. El objetivo es acercarse a la creación de sistemas que imiten la cognición humana combinando perfectamente diferentes tipos de conocimiento y percepción.

El desafío enfrentado en este campo radica en permitir que estos sistemas multimodales demostraran una verdadera generalización. Si bien muchos modelos pueden procesar múltiples entradas, a menudo no pueden transferir el aprendizaje a través de tareas o modalidades. Esta ausencia de mejora de la tarea cruzada, conocida como sinergia, los hirvientes progresan hacia sistemas más inteligentes y adaptativos. Un modelo puede sobresalir en la clasificación de imágenes y la generación de texto por separado, pero no puede considerarse un generalista robusto sin la capacidad de conectar las habilidades de ambos dominios. Lograr esta sinergia es esencial para desarrollar sistemas de IA más capaces y autónomos.

Muchas herramientas actuales dependen en gran medida de los modelos de idiomas grandes (LLM) en su núcleo. Estos LLM a menudo se complementan con componentes externos y especializados adaptados al reconocimiento de imágenes o tareas de análisis del habla. Por ejemplo, los modelos existentes como Clip o Flamingo integran el lenguaje con la visión, pero no conectan profundamente los dos. En lugar de funcionar como un sistema unificado, dependen de módulos poco acoplados que imiten la inteligencia multimodal. Este enfoque fragmentado significa que los modelos carecen de la arquitectura interna necesaria para un aprendizaje intermodal significativo, lo que resulta en el rendimiento de la tarea aislada en lugar de la comprensión holística.

Investigadores de la Universidad Nacional de Singapur (NUS), Nanyang Technological University (NTU), la Universidad de Zhejiang (ZJU), la Universidad de Pekín (PKU) y otros propusieron un marco de IA llamado a nivel general y un punto de referencia llamado General Bench. Estas herramientas están construidas para medir y promover la sinergia a través de modalidades y tareas. El nivel general establece cinco niveles de clasificación en función de qué tan bien un modelo integra las tareas de comprensión, generación y lenguaje. El punto de referencia es compatible con General Bench, un gran conjunto de datos que abarca más de 700 tareas y 325,800 ejemplos anotados extraídos de texto, imágenes, audio, video y datos 3D.

El método de evaluación dentro de nivel general se basa en el concepto de sinergia. Los modelos se evalúan mediante el rendimiento de la tarea y su capacidad para superar las puntuaciones especialistas de última generación (SOTA) utilizando el conocimiento compartido. Los investigadores definen tres tipos de sinergia (tarea a tarea, generación de comprensión y modalidad de modalidad) y requieren una capacidad creciente en cada nivel. Por ejemplo, un modelo de nivel 2 admite muchas modalidades y tareas, mientras que un modelo de nivel 4 debe exhibir sinergia entre la comprensión y la generación. Los puntajes se ponderan para reducir el sesgo del dominio de la modalidad y alentar a los modelos a apoyar una gama equilibrada de tareas.

Los investigadores probaron 172 grandes modelos, incluidos más de 100 MLLM de alto rendimiento, contra General Bench. Los resultados revelaron que la mayoría de los modelos no demuestran la sinergia necesaria para calificar como generalistas de nivel superior. Incluso los modelos avanzados como GPT-4V y GPT-4O no alcanzaron el Nivel 5, lo que requiere que los modelos usen entradas no lenguaje para mejorar la comprensión del lenguaje. Los modelos de más alto rendimiento administraron solo interacciones multimodales básicas, y ninguno mostró evidencia de sinergia total entre tareas y modalidades. Por ejemplo, el punto de referencia mostró 702 tareas evaluadas en 145 habilidades, pero ningún modelo logró el dominio en todas las áreas. La cobertura de General-Bench en 29 disciplinas, utilizando 58 métricas de evaluación, establece un nuevo estándar para la integridad.

Esta investigación aclara la brecha entre los sistemas multimodales actuales y el modelo generalista ideal. Los investigadores abordan un problema central en la IA multimodal mediante la introducción de herramientas que priorizan la integración sobre la especialización. Con el nivel general y el banco general, ofrecen un camino riguroso para evaluar y construir modelos que manejen diversas entradas y aprendan y razonen a través de ellas. Su enfoque ayuda a dirigir el campo hacia sistemas más inteligentes con flexibilidad del mundo real y comprensión intermodal.


Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.