Screenshot 2024 04 02 At 9.19.58 Pm.png

Los modelos de lenguaje de visión grande (LVLM) muestran poderosas capacidades de comprensión y percepción visual. Estos logros han inspirado aún más a la comunidad de investigación a desarrollar una variedad de puntos de referencia multimodales construidos para explorar las poderosas capacidades que surgen de los LVLM y proporcionar una plataforma integral y objetiva para comparar cuantitativamente los modelos en continua evolución. Sin embargo, después de una evaluación cuidadosa, los investigadores identificaron dos problemas principales:
1) El contenido visual es innecesario para muchas muestras y
2) Existe una fuga de datos involuntaria en la formación LLM y LVLM.

Los primeros puntos de referencia de una sola tarea, como VQA, MS-COCO y OK-VQA, no logran evaluar de manera integral la percepción multimodal general y las capacidades de razonamiento de los LVLM. Para abordar este problema, se han construido puntos de referencia multimodales integrales. Por ejemplo, SEED, MMBench y MMMU ofrecen campos competitivos para comparar exhaustivamente los LVLM de última generación. Sin embargo, las evaluaciones existentes de LVLM pasan por alto algunas cuestiones críticas. Por un lado, no garantizan que todas las muestras de evaluación no puedan responderse correctamente sin el contenido visual. Por otro lado, las evaluaciones actuales se adhieren consistentemente al proceso de inferir puntos de referencia determinados y calcular puntuaciones para los LVLM, pasando por alto la posibilidad de fuga de datos durante el entrenamiento multimodal. Este descuido puede dar lugar a comparaciones injustas y juicios erróneos.

Están presentes investigadores de la Universidad de Ciencia y Tecnología de China, la Universidad China de Hong Kong y el Laboratorio de IA de Shanghai MMStar, un punto de referencia multimodal indispensable para la visión de élite que comprende 1.500 muestras meticulosamente seleccionadas por humanos. MMStar compara seis capacidades principales y 18 ejes detallados, con el objetivo de evaluar las capacidades multimodales de los LVLM con muestras cuidadosamente equilibradas y purificadas. Estas muestras primero se seleccionan de forma aproximada a partir de puntos de referencia actuales con un proceso automatizado; Luego interviene la revisión humana para garantizar que cada muestra seleccionada muestre dependencia visual, fuga de datos mínima y requiera capacidades multimodales avanzadas. Además, se desarrollan dos métricas para medir la fuga de datos y la ganancia de rendimiento real en la capacitación multimodal.

MMStar se explica en tres secciones:

  • Proceso de curación de datos: Criterios para la curación de datos: las muestras de evaluación para construir el punto de referencia MMStar deben cumplir tres criterios fundamentales: 1) Dependencia visual. Las muestras recopiladas se pueden responder correctamente sólo si se comprende el contenido visual; 2) Fuga mínima de datos. Las muestras recopiladas deben minimizar el riesgo de inclusión involuntaria en el corpus de capacitación de los LLM o transformarse efectivamente de formatos unimodales a multimodales para evitar que los LLM «recuerden» las respuestas correctas; 3) Requerir capacidades multimodales avanzadas para la resolución.

Filtro de datos: Para su colección de muestras, primero eligieron dos puntos de referencia centrados en imágenes naturales y cuatro centrados en el conocimiento científico y técnico. Luego, desarrollaron un proceso automatizado para filtrar preliminarmente las muestras que no cumplían los dos primeros criterios. Específicamente, emplean dos LLM de código cerrado y seis LLM de código abierto.

Revisión manual: después del filtrado aproximado con los inspectores de LLM, emplean además a tres expertos para llevar a cabo el proceso de revisión manual para garantizar: 1) la respuesta de cada muestra debe basarse en la comprensión del contenido visual; 2) las muestras seleccionadas deben cubrir una amplia gama de dimensiones de evaluación de capacidades; 3) la mayoría de las muestras deberían requerir que los LVLM posean capacidades multimodales avanzadas para la resolución.

  • Capacidades básicas: Seleccionan y consolidan las dimensiones utilizadas para evaluar las capacidades multimodales de los LVLM en los puntos de referencia existentes e identifican seis dimensiones de capacidad centrales y dieciocho ejes detallados.
  • Ganancia/fuga multimodal: Propusieron dos métricas únicas para evaluar el grado de fuga de datos y la ganancia de rendimiento real del proceso de capacitación multimodal.

Evaluaron dos LVLM de código cerrado y 14 de código abierto en MMStar, con una configuración de alta resolución que puede lograr la mejor puntuación promedio del 57,1 % entre todos los LVLM. Aumentar la resolución y la cantidad de tokens de imagen puede aumentar la puntuación promedio del 46,1% al 57,1% para GPT4V. Entre los LVLM de código abierto, InternLMXcomposer2 logra una impresionante puntuación del 55,4%. LLaVA-Next incluso supera a GPT4V y GeminiPro-Vision en la capacidad central de matemáticas (MA).

En conclusión, los investigadores profundizaron en el trabajo de evaluación de los LVLM y encontraron dos problemas clave: 1) el contenido visual es innecesario para muchas muestras y 2) existe una fuga de datos involuntaria en la capacitación de LLM y LVLM. Los investigadores desarrollaron un punto de referencia multimodal dependiente de la visión de élite llamado MMStar y propuso dos métricas para medir la fuga de datos y la ganancia de rendimiento real en la capacitación multimodal de LVLM. MMStar se somete a la revisión manual de cada muestra, que cubre seis capacidades principales y 18 ejes detallados para una evaluación en profundidad de las capacidades multimodales de los LVLM. Al evaluar 16 LVLM diferentes en MMStar, incluso el mejor modelo obtiene una puntuación inferior a 60 en promedio.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.