MaVEn: un marco eficaz de codificación visual híbrida de granularidad múltiple para modelos de lenguaje multimodales de gran tamaño (MLLM)

El enfoque principal de los modelos multimodales de lenguaje grande (MLLM) existentes es la interpretación de imágenes individuales, lo que restringe su capacidad para abordar tareas que involucran muchas imágenes. Estos desafíos exigen que los modelos comprendan e integren información de varias imágenes, incluidas las respuestas visuales a preguntas basadas en el conocimiento (VQA), la inferencia de relaciones visuales y el razonamiento de múltiples imágenes. La mayoría de los MLLM actuales tienen dificultades con estos escenarios debido a su arquitectura, que se centra principalmente en el procesamiento de una sola imagen, a pesar de que la necesidad de tales habilidades en aplicaciones reales está aumentando.

En una investigación reciente, un equipo de investigadores ha presentado MaVEn, un marco de codificación visual de granularidad múltiple diseñado para mejorar el rendimiento de los MLLM en tareas que requieren razonamiento a través de numerosas imágenes. El objetivo principal de los MLLM tradicionales es comprender y manejar fotos individuales, lo que limita su capacidad para manejar y combinar de manera eficiente datos de varias imágenes a la vez. MaVEn utiliza una estrategia única que combina dos tipos diferentes de representaciones visuales para superar estos obstáculos, que son los siguientes.

  1. Secuencias discretas de símbolos visuales: estos patrones extraen conceptos semánticos con una textura burda de las imágenes. MaVEn optimiza la representación de conceptos de alto nivel mediante la abstracción de la información visual en símbolos discretos, lo que facilita la alineación del modelo y la integración de esta información con los datos textuales.
  1. Secuencias para representación continua: estas secuencias se utilizan para simular las características de grano fino de las imágenes, conservando los detalles visuales específicos que podrían pasarse por alto en una representación que es solo discreta. Esto garantiza que el modelo aún pueda acceder a la información sutil necesaria para una interpretación y una lógica defendibles.

MaVEn cierra la brecha entre los datos textuales y visuales al combinar estos dos métodos, mejorando la capacidad del modelo para comprender y procesar información de varias imágenes de manera coherente. Este enfoque de codificación dual preserva la efectividad del modelo en tareas que involucran una sola imagen y, al mismo tiempo, mejora su desempeño en circunstancias con múltiples imágenes.

MaVEn también presenta un método de reducción dinámica que tiene como objetivo gestionar secuencias de características continuas y extensas que pueden ocurrir en escenarios de múltiples imágenes. Al optimizar la eficiencia de procesamiento del modelo, este método reduce la complejidad computacional sin sacrificar la calidad de los datos visuales que se codifican.

Los experimentos han demostrado que MaVEn mejora considerablemente el rendimiento de MLLM en situaciones difíciles que requieren razonamiento con múltiples imágenes. Además, ilustra cómo el marco mejora el rendimiento de los modelos en tareas con una sola imagen, lo que lo convierte en una respuesta flexible para una variedad de aplicaciones de procesamiento visual.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Se ha sugerido un marco único que combina representaciones visuales continuas y discretas. Esta combinación mejora en gran medida la capacidad de los MLLM para procesar y comprender información visual compleja de numerosas imágenes, así como su capacidad para razonar a partir de varias imágenes.
  1. Para abordar los aspectos visuales continuos de secuencias largas, el estudio crea un mecanismo de reducción dinámica. Mediante la optimización de la eficiencia del procesamiento de múltiples imágenes, este método minimiza la sobrecarga computacional en los modelos de aprendizaje automático sin sacrificar la precisión.
  1. El método funciona excepcionalmente bien en una variedad de escenarios de razonamiento de múltiples imágenes. También ofrece beneficios en evaluaciones comparativas comunes de una sola imagen, lo que demuestra su adaptabilidad y eficiencia en varias aplicaciones de procesamiento visual.

Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desbloquee el poder de sus datos de Snowflake con LLM’


Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.