VLM2VEC-V2: un marco de visión por computadora unificado para el aprendizaje multimodal de incrustación a través de imágenes, videos y documentos visuales

Los modelos de incrustación actúan como puentes entre diferentes modalidades de datos mediante la codificación diversa de información multimodal en un espacio de representación denso compartido. Ha habido avances en la incrustación de modelos en los últimos años, impulsados por el progreso en grandes modelos de cimientos. Sin embargo, los modelos de incrustación multimodal existentes están entrenados en conjuntos de datos como MMEB y M-Beir, con la mayoría de los centros de datos solo en imágenes naturales y fotografías de los conjuntos de datos MSCOCO, Flickr e Imagenet. Estos conjuntos de datos no cubren formas más grandes de información visual, incluidos documentos, PDF, sitios web, videos y diapositivas. Esto hace que los modelos de incrustación existentes tengan un rendimiento inferior en tareas realistas, como la búsqueda de artículos, la búsqueda de sitios web y la búsqueda de video de YouTube.

Los puntos de referencia de incrustación multimodal como MSCOCO, FlickR30K y los subtítulos conceptuales se centraron inicialmente en pares de texto de imagen estática para tareas como el subtítulos de imágenes y la recuperación. Los puntos de referencia más recientes, como M-Beir y MMEB, introdujeron evaluaciones de varias tareas, pero permanecen limitadas a imágenes estáticas y contextos cortos. El aprendizaje de la representación de video ha evolucionado a través de modelos como VideoClip y VideSococa, integrando el aprendizaje contrastante con los objetivos de subtítulos. El aprendizaje de representación de documentos visuales avanzó a través de modelos como Colpali y Visrag, que usan VLM para la recuperación de documentos. Los métodos de recuperación de modalidad unificada como GME y Uni-Retrieval logran un rendimiento fuerte en los puntos de referencia universales. Sin embargo, ninguno puede unificar la recuperación de la imagen, el video y el documento visual dentro de un solo marco.

Investigadores de Salesforce Research, UC Santa Bárbara, Universidad de Waterloo y la Universidad de Tsinghua han propuesto VLM2VEC-V2 para unificar la recuperación de imágenes, videos y documentos visuales dentro de un solo marco. En primer lugar, los investigadores desarrollaron MMEB-V2, un punto de referencia que extiende MMEB con cinco nuevos tipos de tareas, incluida la recuperación de documentos visuales, la recuperación de videos, la base temporal, la clasificación de video y la respuesta de preguntas de video. En segundo lugar, VLM2VEC-V2 sirve como un modelo de incrustación de uso general que admite múltiples modalidades de entrada al tiempo que demuestra un rendimiento fuerte tanto en las tareas recién introducidas como en los puntos de referencia de imágenes originales. Esto establece una base para el aprendizaje de representación más escalable y flexible tanto en la investigación como en las aplicaciones prácticas.

VLM2VEC-V2 utiliza QWEN2-VL como su columna vertebral, seleccionada para sus capacidades especializadas en el procesamiento multimodal. QWEN2-VL ofrece tres características críticas que admiten el aprendizaje de incrustación unificado: resolución dinámica ingenua, incrustación de posición rotativa multimodal (TROP M) y un marco unificado que combina convoluciones 2D y 3D. To enable effective multi-task training across diverse data sources, VLM2Vec-V2 introduces a flexible data sampling pipeline with two key components: (a) on-the-fly batch mixing based on predefined sampling weight tables that control the relative probabilities of each dataset, and (b) an interleaved sub-batching strategy that splits full batches into independently sampled sub-batches, improving the stability de aprendizaje contrastante.

VLM2VEC-V2 logra el puntaje promedio general más alto de 58.0 en 78 conjuntos de datos que cubren tareas de imagen, video y documentos visuales, superando las líneas de base fuertes, incluidos GME, Lamra y VLM2VEC, construido en el mismo trasero QWEN2-VL. En las tareas de imagen, VLM2VEC-V2 supera a la mayoría de las líneas de base por márgenes significativos y logra un rendimiento comparable a VLM2VEC-7B a pesar de tener solo 2B de tamaño. Para las tareas de video, el modelo logra un rendimiento competitivo a pesar de la capacitación en cantidades relativamente pequeñas de datos de video. En la recuperación de documentos visuales, VLM2VEC-V2 supera a todas las variantes VLM2VEC, pero aún se queda atrás de Colpali, que está específicamente optimizado para tareas de documentos visuales.

En conclusión, los investigadores introdujeron VLM2VEC-V2, un sólido modelo de base entrenado a través del aprendizaje contrastante en diversas tareas y combinaciones de modalidad. VLM2VEC-V2 se basa en MMEB-V2 y usa QWEN2-VL como modelo de columna vertebral. MMEB-V2 es un punto de referencia diseñado por investigadores para evaluar los modelos de incrustación multimodal en varias modalidades, incluidos textos, imágenes, videos y documentos visuales. La evaluación experimental demuestra la efectividad de VLM2VEC-V2 para lograr un rendimiento equilibrado en múltiples modalidades al tiempo que destaca el valor diagnóstico de MMEB-V2 para futuras investigaciones.


Mira el Papel, Página de Github y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.