Los avances recientes en el modelado de contexto largo (LC) han desbloqueado nuevas capacidades para LLM y grandes modelos en idioma de visión (LVLM). Los modelos de visión-lenguaje de contexto largo (LCVLMS) muestran un importante paso adelante al permitir que los LVLM procesen cientos de imágenes y miles de tokens de texto intercalados en un solo pase hacia adelante. Sin embargo, el desarrollo de puntos de referencia de evaluación efectivos retrasa. Todavía no está claro qué tan bien funcionan los LCVLM actuales en la configuración de contexto largo, qué tareas luchan y cuán robustos son la variación de la longitud de entrada. Los puntos de referencia actuales enfrentan el siguiente problema: (a) cobertura limitada de tareas aguas abajo, (b) cobertura insuficiente de los tipos de imágenes, (c) falta de control de longitud de contexto y (d) longitud de contexto único.
Varias técnicas tienen ventanas de contexto extendidas para LVLM, que incluyen longitudes de prioridad más largas, extrapolación de posición y arquitecturas eficientes. Modelos como Gemini-2.5 y Qwen2.5-VL han adoptado estos enfoques junto con los métodos de compresión de tokens de visión para acomodar secuencias más largas. Para la evaluación, la tarea Needle-in a-Haystack se convirtió en un punto de referencia estándar para probar la capacidad de LC al insertar información a profundidades específicas dentro de textos largos. Sin embargo, los puntos de referencia del idioma de visión existentes siguen siendo limitados, centrándose solo en variantes de NIAH o tareas VQA de documentos largos. Incluso Milebench contiene tareas de corto contexto con una longitud promedio de solo 9k tokens, no evaluar las verdaderas capacidades de LC en diversas aplicaciones en idioma de visión.
Investigadores de HKUST, Tencent AI Seattle Lab, University of Edimburgh, Miniml.ai y Nvidia AI Technology Center han propuesto MMLongbench, el primer punto de referencia integral para evaluar los LCVLM. Comprende 13,331 ejemplos que abarcan cinco categorías de tareas aguas abajo, incluida la visual TRAPO y ICL de muchos disparos, que cubre tipos de imágenes naturales y sintéticas. Todos los ejemplos se estandarizan en cinco longitudes de entrada de 8k a 128k tokens utilizando un esquema de tokenización intermodal que combina parches de visión y tokens de texto. A través de los modelos de código cerrado y de código abierto, la investigación revela que el rendimiento de una sola tarea predice mal la capacidad general de LC, ambos tipos de modelos luchan con las tareas de LC, y los modelos de razonamiento más fuertes muestran un mejor rendimiento de LC.
Los investigadores construyen LC insertando pasajes de oro que contienen respuestas entre grandes conjuntos de pasajes de distracción recuperados de Wikipedia. Para Viquae, se utilizan pasajes de oro de Kilt, mientras que Infoseek utiliza secciones de plomo de las páginas de entidad de Wikipedia. Además, las páginas de Wikipedia se dividen en pasajes de 100 palabras, y se agregan distractores recuperados hasta alcanzar las longitudes de entrada deseadas. Las tareas de aprendizaje en contexto de muchos disparos utilizan cuatro conjuntos de datos de clasificación de imágenes diversos: Stanford Cars, Food101, Sun397 e INAT2021, acomodando 500 imágenes dentro de las ventanas de contexto de 128k. El conteo de tokenses intermodales combina tokens de texto utilizando el tokenizador LLAMA2 con tokens visuales procesados a través de parches de 14 × 14 y compresión de despido de 2 × 2 píxeles, asegurando la compatibilidad con LVLM modernos para la evaluación.
La evaluación en MMLongBench en tareas y longitudes de contexto muestra que todos los modelos luchan, pero los modelos de código cerrado funcionan mejor. Para la longitud de entrada más larga de 128k, todos los modelos luchan con tareas en idioma de visión de contexto largo, con GPT-4O alcanzando solo 62.9 rendimiento promedio. Gemini-2.5-Pro se convirtió en el artista más fuerte, superando los modelos de código abierto por 20 puntos, excepto en las tareas de ICL. Además, el modelo OVIS2-34B logra una puntuación de 41.6 en resumen, similar a GPT-4O (42.4). QWEN2.5-VL-32B logra una puntuación SUBEM de 64.6 en VRAG, incluso mejor que Gemini-2.0-Flash. Los modelos muestran capacidades de generalización más allá de sus longitudes de contexto de entrenamiento, con QWEN2-VL-72B logrando un puntaje promedio de 51.9 a 128k a pesar de una ventana de entrenamiento de 32k.
En conclusión, los investigadores introdujeron MMLongBench, el primer punto de referencia integral para evaluar LCVLM en diversas tareas aguas abajo. Proporciona una base rigurosa para diagnosticar las capacidades del modelo de frontera al cubrir cinco categorías de tareas distintas con conteo de token intermodal unificado y longitudes de contexto estandarizadas. La evaluación de 46 modelos demuestra que el rendimiento de una sola tarea predice implacablemente la capacidad general de contexto largo, y los modelos fronterizos enfrentan desafíos significativos en la precisión de OCR y la recuperación intermodal. MMLongBench es un marco de evaluación estándar para impulsar la investigación futura hacia codificaciones de token en idioma visión más eficientes, esquemas de extralimentación de posición robustos y capacidades mejoradas de recuperación multimodal y razonamiento.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
