Screenshot 2024 01 18 At 6.33.32 Am.png

Los MLLM, o modelos de lenguajes grandes multimodales, han avanzado últimamente. Al incorporar imágenes en modelos de lenguaje grandes (LLM) y aprovechar las capacidades de los LLM, los MLLM demuestran habilidades excepcionales en tareas que incluyen respuesta visual a preguntas, seguimiento de instrucciones y comprensión de imágenes. Los estudios han visto un defecto importante en estos modelos a pesar de sus mejoras; todavía tienen algunos defectos visuales sorprendentemente simples y obvios.

Según una investigación reciente de UC Berkeley y la Universidad de Nueva York, estas deficiencias de MLLM podrían deberse a problemas de representación visual.

Los modelos de visión y lenguaje previamente entrenados constituyen la columna vertebral de la mayoría de los MLLM. Para incorporar las distintas modalidades, estos modelos se acoplan mediante varios adaptadores. Según una teoría común, cualquier defecto en los modelos de visión previamente entrenados puede afectar potencialmente a los MLLM posteriores que los utilizan.

Con respecto al codificador visual, la mayoría de los MLLM de código abierto suelen utilizar el modelo de preentrenamiento de imágenes y lenguaje contrastivo (CLIP) previamente entrenado. Los investigadores comienzan catalogando casos de fallas que CLIP tiene dificultades para codificar con precisión. En el espacio de incrustación hacen uso de acuerdos incorrectos. Una de las imágenes visualmente distintas probablemente esté codificada de manera ambigua si CLIP las codifica de manera similar. Este conjunto de imágenes se conoce como par CLIP-blind. Para determinar qué tan similares son visualmente las dos imágenes, el equipo emplea un codificador autosupervisado de solo visión como DINOv2. Aquí, los pares CLIP-blind se refieren a imágenes con incrustaciones CLIP idénticas pero incrustaciones DINOv2 distintas. Descubren que estas combinaciones CLIP-blind hacen que los MLLM cometan errores más adelante.

Con estos pares se introduce un nuevo punto de referencia llamado Patrones visuales multimodales (MMVP). Este punto de referencia, que evalúa las capacidades visuales de los MLLM de última generación con preguntas básicas, está destinado específicamente a consultar las disparidades en los pares CLIP-blind. Los investigadores probaron GPT-4V y otros MLLM SOTA en el punto de referencia y descubrieron que todos fallan estrepitosamente a la hora de responder consultas básicas sobre características visuales. La mayoría de estos modelos funcionan peor que las conjeturas aleatorias; GPT-4V es un caso atípico. Sin embargo, incluso GPT-4V muestra una brecha de rendimiento significativa de más del 50% en comparación con el rendimiento humano.

Después de encontrar numerosos casos de falla de MLLM individualmente, investigaron los patrones visuales sistemáticos en MMVP con los que los modelos CLIP tenían dificultades. En MMVP, nueve pares de CLIPblinds frecuentemente exhiben patrones como «orientación», «conteo» y «punto de vista», que presentan dificultades considerables para el codificador de visión CLIP. Aumentar la cantidad de datos de entrenamiento y el tamaño del modelo CLIP ha sido un esfuerzo continuo y sustancial. Para evaluar sistemáticamente si el escalamiento por sí solo puede aliviar estas dificultades, los casos de MMVP se agruparon en patrones visuales. Según los resultados, la escala del modelo/datos es insuficiente ya que ningún modelo basado en CLIP a gran escala pudo resolver ninguno de los nueve patrones visuales encontrados. Además, se descubrió que los patrones visuales que prueban los modelos CLIP están fuertemente correlacionados con el rendimiento de los MLLM. Si CLIP tiene problemas con un patrón visual específico, como la «orientación», los MLLM probablemente también tendrán problemas. Evidentemente, los codificadores de visión CLIP tienen el potencial de convertirse en un obstáculo en sistemas como este.

Como última etapa, el equipo mejora la base visual de los MLLM. Se centran en mejorar las capacidades de conexión a tierra visual de los MLLM mediante la integración de un modelo autosupervisado de solo visión, como DINOv2. Estos métodos se denominan Mezcla de características (MoF). Para comenzar, se crea una mezcla llamada Additive-MoF (A-MoF) mezclando linealmente las características CLIP y DINOv2 en diferentes proporciones. Si bien este método muestra que las características de DINOV2 mejoran la conexión visual, lo hace a expensas de una capacidad reducida para seguir instrucciones. Esta solución es InterleavedMoF (I-MoF), que combina tokens visuales de los modelos CLIP y DINOv2 de forma espacialmente mixta. Mientras se mantiene intacta la capacidad de seguir instrucciones, se descubre que esta técnica mejora enormemente el anclaje visual.

Los codificadores de visión CLIP previamente entrenados que utilizan los MLLM no logran clasificar patrones visuales significativos y no notan detalles visuales críticos en las imágenes, lo que hace que fallen en consultas sencillas. Sin embargo, en cuanto a modelos de visión escalables, los modelos tipo CLIP siguen siendo el estándar de oro. Los hallazgos del estudio refutan la suposición generalizada de que simplemente expandir los datos y los modelos resolverá todos los problemas de los modelos CLIP. La investigación muestra que los modelos de visión y lenguaje y los modelos de aprendizaje autosupervisados ​​solo con visión, dos tipos comunes de modelos de aprendizaje de representación visual, tienen sus fortalezas y debilidades. Sus puntos fuertes únicos se extienden más allá de las medidas habituales utilizadas para compararlos, como el sondeo lineal y la precisión de disparo cero en ImageNet. Se necesitan nuevas métricas de evaluación para ayudar a crear nuevos algoritmos para el aprendizaje de representación visual, incluso si un enfoque de combinación de características bien diseñado podría superar las restricciones visuales y combinar las mejores características de los dos paradigmas de aprendizaje. El equipo espera que su esfuerzo inspire más avances en los modelos de visión.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.