Investigadores de la CMU presentan MMMU-Pro: una versión avanzada del modelo de referencia de comprensión y razonamiento multimodal multidisciplinario masivo (MMMU) para evaluar la comprensión multimodal en modelos de IA

Los modelos de lenguaje multimodales de gran tamaño (MLLM) se aplican cada vez más en diversos campos, como el análisis de imágenes médicas, los diagnósticos de ingeniería e incluso la educación, donde la comprensión de diagramas, gráficos y otros datos visuales es esencial. La complejidad de estas tareas requiere que los MLLM cambien sin problemas entre diferentes tipos de información mientras realizan un razonamiento avanzado.

El principal desafío que enfrentan los investigadores en esta área ha sido garantizar que los modelos de IA comprendan realmente las tareas multimodales en lugar de depender de patrones estadísticos simples para obtener respuestas. Los puntos de referencia anteriores para evaluar los modelos multimodales permitían a los modelos tomar atajos y, a veces, llegar a respuestas correctas explotando estructuras de preguntas predecibles o correlaciones sin comprender el contenido visual. Esto ha suscitado inquietudes sobre las capacidades reales de estos modelos para manejar de manera efectiva los problemas multimodales del mundo real.

Para abordar esta cuestión, las herramientas existentes para probar los modelos de IA deben considerarse insuficientes. Los parámetros de referencia actuales no logran diferenciar entre los modelos que utilizan una verdadera comprensión multimodal y los que se basan en patrones basados ​​en texto. Como resultado, el equipo de investigación destacó la necesidad de un sistema de evaluación más sólido para probar la profundidad del razonamiento y la comprensión en contextos multimodales. Estas deficiencias indicaron la necesidad de un enfoque más desafiante y riguroso para evaluar los modelos multimodales.

Investigadores de la Universidad Carnegie Mellon y otras instituciones introdujeron un nuevo punto de referencia llamado MMMU-Pro, diseñado específicamente para ampliar los límites de la comprensión multimodal de los sistemas de IA. Este punto de referencia mejorado apunta a las debilidades de las pruebas anteriores al filtrar las preguntas que se pueden resolver con modelos de solo texto y aumentar la dificultad de las preguntas multimodales. El punto de referencia se desarrolló con empresas líderes, incluidas OpenAI, Google y Anthropic. Introduce características como escenarios de entrada de solo visión y preguntas de opción múltiple con opciones aumentadas, lo que hace que sea significativamente más difícil para los modelos explotar patrones simples para obtener respuestas.

La metodología detrás de MMMU-Pro es exhaustiva y multidimensional. La construcción del punto de referencia implicó tres pasos principales: primero, los investigadores filtraron las preguntas que podían responderse con modelos de solo texto utilizando múltiples modelos de lenguaje para probar cada pregunta. Se eliminaron todas las preguntas que podían responderse de manera consistente sin entrada visual. En segundo lugar, aumentaron el número de opciones de respuesta de cuatro a diez en muchas preguntas, lo que redujo la efectividad de las conjeturas aleatorias. Por último, introdujeron una configuración de entrada de solo visión, donde se presentaron a los modelos imágenes o capturas de pantalla que contenían las opciones de pregunta y respuesta. Este paso es crucial ya que imita situaciones del mundo real donde la información visual y de texto se entrelazan, lo que desafía a los modelos a comprender ambas modalidades simultáneamente.

En términos de rendimiento, MMMU-Pro reveló las limitaciones de muchos modelos de última generación. La precisión promedio de modelos como GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro disminuyó significativamente cuando se probó con este nuevo punto de referencia. Por ejemplo, GPT-4o experimentó una caída del 69,1 % en el punto de referencia MMMU original al 54,0 % en MMMU-Pro cuando se evaluó utilizando diez opciones candidatas. Mientras tanto, Claude 3.5 Sonnet, desarrollado por Anthropic, experimentó una reducción de rendimiento del 16,8 %, mientras que Gemini 1.5 Pro, de Google, experimentó una disminución del 18,9 %. La disminución más drástica se observó en VILA-1.5-40B, que experimentó una caída del 26,9 %. Estos números subrayan la capacidad del punto de referencia para resaltar las deficiencias de los modelos en el razonamiento multimodal real.

Se introdujeron pautas de razonamiento en cadena de pensamiento (CoT) como parte de la evaluación para mejorar el rendimiento del modelo al alentar el razonamiento paso a paso. Si bien esta estrategia mostró algunas mejoras, el grado de éxito varió entre los modelos. Por ejemplo, la precisión de Claude 3.5 Sonnet aumentó al 55,0 % con CoT, pero modelos como LLaVA-OneVision-72B mostraron mejoras mínimas y algunos modelos incluso enfrentaron caídas de rendimiento. Esto resalta la complejidad de MMMU-Pro y sus desafíos para los modelos multimodales actuales.

El análisis comparativo MMMU-Pro ofrece información fundamental sobre las deficiencias en el rendimiento de los modelos de IA multimodales. A pesar de los avances en el reconocimiento óptico de caracteres (OCR) y el razonamiento CoT, los modelos aún tenían dificultades para integrar texto y elementos visuales de manera significativa, en particular en entornos de solo visión donde no se proporcionaba texto explícito. Esto enfatiza aún más la necesidad de contar con sistemas de IA mejorados para manejar todo el espectro de desafíos multimodales.

En conclusión, MMMU-Pro marca un avance significativo en la evaluación de sistemas de IA multimodales. Identifica con éxito las limitaciones de los modelos existentes, como su dependencia de patrones estadísticos, y presenta un desafío más realista para evaluar la verdadera comprensión multimodal. Este punto de referencia abre nuevas direcciones para futuras investigaciones, impulsando el desarrollo de modelos mejor equipados para integrar datos visuales y textuales complejos. El trabajo del equipo de investigación representa un importante paso adelante en la búsqueda de sistemas de IA capaces de realizar un razonamiento sofisticado en aplicaciones del mundo real.


Echa un vistazo a la Papel y Tabla de clasificación. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram.

Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios


Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.