Tongyi Lab de Alibaba lanza VimRAG: un marco RAG multimodal que utiliza un gráfico de memoria para navegar en contextos visuales masivos

La generación aumentada de recuperación (RAG) se ha convertido en una técnica estándar para basar grandes modelos de lenguaje en conocimiento externo, pero en el momento en que vas más allá del texto plano y comienzas a mezclar imágenes y videos, todo el enfoque comienza a fallar. Los datos visuales tienen muchos tokens, son semánticamente escasos en relación con una consulta específica y se vuelven difíciles de manejar rápidamente durante el razonamiento de varios pasos. Los investigadores de Tongyi Lab, Alibaba Group presentaron ‘VimRAG’, un marco creado específicamente para abordar ese problema.

El problema: el historial lineal y la memoria comprimida fallan con los datos visuales

La mayoría de los agentes RAG hoy en día siguen un ciclo de Pensamiento-Acción-Observación, a veces llamado ReAct, donde el agente agrega su historial de interacción completo en un contexto único en crecimiento. Formalmente, en el paso t la historia es Ht = [q, τ1, a1, o1, …, τt-1, at-1, ot-1]. Para tareas que incluyen vídeos o documentos visualmente ricos, esto rápidamente se vuelve insostenible: la densidad de información de las observaciones críticas |Ocrit|/|Ht| cae hacia cero a medida que aumentan los pasos de razonamiento.

La respuesta natural es la compresión basada en la memoria, donde el agente resume iterativamente observaciones pasadas en un estado compacto mt. Esto mantiene la densidad estable en |Ocrit|/|mt| ≈ C, pero introduce ceguera markoviana: el agente pierde la pista de lo que ya ha consultado, lo que lleva a búsquedas repetitivas en escenarios de múltiples saltos. En un estudio piloto que comparó ReAct, resumen iterativo y memoria basada en gráficos usando Qwen3VL-30B-A3B-Instruct en un corpus de video, los agentes basados ​​en resumen sufrieron ceguera estatal tanto como ReAct, mientras que la memoria basada en gráficos redujo significativamente las acciones de búsqueda redundantes.

Un segundo estudio piloto probó cuatro estrategias de memoria multimodales. Los subtítulos previos (texto → texto) utilizan solo 0,9 mil tokens, pero alcanzan solo el 14,5 % en tareas de imágenes y el 17,2 % en tareas de vídeo. El almacenamiento de tokens visuales sin procesar utiliza 15,8 mil tokens y logra un 45,6 % y un 30,4 %: el ruido abruma la señal. Los subtítulos sensibles al contexto se comprimen en texto y mejoran al 52,8% y 39,5%, pero pierden detalles detallados necesarios para la verificación. Retener selectivamente solo tokens de visión relevantes (memoria visual relacionada semánticamente) utiliza 2,7 mil tokens y alcanza el 58,2% y el 43,7%, la mejor compensación. Un tercer estudio piloto sobre asignación de créditos encontró que en trayectorias positivas (recompensa = 1), aproximadamente el 80% de los pasos contienen ruido que recibiría incorrectamente una señal de gradiente positivo bajo RL estándar basado en resultados, y que la eliminación de pasos redundantes de trayectorias negativas recuperaba el rendimiento por completo. Estos tres hallazgos motivan directamente los tres componentes principales de VimRAG.

https://arxiv.org/pdf/2602.12735v1

La arquitectura de tres partes de VimRAG

El primer componente es el gráfico de memoria multimodal. En lugar de una historia plana o un resumen comprimido, el proceso de razonamiento se modela como un gráfico acíclico dirigido dinámico Gt(Vt, Et). Cada nodo vi codifica una tupla (pi, qi, si, mi): índices del nodo principal que codifican la estructura de dependencia local, una subconsulta descompuesta asociada con la acción de búsqueda, un resumen textual conciso y un banco de memoria episódica multimodal de tokens visuales de documentos o marcos recuperados. En cada paso, la política toma muestras de tres tipos de acciones: aret (recuperación exploratoria, generar un nuevo nodo y ejecutar una subconsulta), amem (percepción multimodal y población de memoria, destilar observaciones sin procesar en un resumen st y tokens visuales mt usando una máscara de prominencia binaria de gruesa a fina u ∈ {0,1} y una puntuación semántica detallada p ∈ [1,5]), y aans (proyección terminal, ejecutada cuando el gráfico contiene evidencia suficiente). Para observaciones de video, amem aprovecha la capacidad de conexión temporal de Qwen3-VL para extraer fotogramas clave alineados con marcas de tiempo antes de poblar el nodo. El segundo componente es la codificación de memoria visual modulada por gráficos, que trata la asignación de tokens como un problema de asignación de recursos restringidos. Para cada elemento visual mi,k, la energía intrínseca se calcula como Eint(mi,k) = p̂i,k · (1 + deg+G(vi)) · exp(−λ(T − ti)), combinando prioridad semántica, grado de salida de nodo para relevancia estructural y decadencia temporal para descartar evidencia más antigua. La energía final agrega refuerzo recursivo de los nodos sucesores: Ω(mi,k)=ℰint(mi,k)+γ∑vj∈Child(vi)Ω(vj)\Omega(m_{i,k}) = \mathcal{E}_{\text{int}}(m_{i,k}) + \gamma \sum_{v_j \in \text{Child}(v_i)} \overline{\Omega}(v_j), preservando los primeros nodos fundamentales que respaldan el razonamiento posterior de alto valor. Los presupuestos de tokens se asignan proporcionalmente a las puntuaciones de energía en una selección global top-K, con un presupuesto total de recursos de Stotal = 5 × 256 × 32 × 32. La asignación dinámica se habilita solo durante la inferencia; el entrenamiento promedia los valores de píxeles en el banco de memoria. El tercer componente es la optimización de políticas guiada por gráficos (GGPO). Para muestras positivas (recompensa = 1), se aplican máscaras de gradiente a los nodos sin salida que no se encuentran en la ruta crítica desde la raíz hasta el nodo de respuesta, lo que evita el refuerzo positivo de la recuperación redundante. Para muestras negativas (recompensa = 0), los pasos en los que los resultados de recuperación contienen información relevante se excluyen de la actualización del gradiente de política negativa. La máscara de poda binaria se define como μt=𝕀(r=1)⋅𝕀(vt∉𝒫ans)⏟Callejones sin salida en positivo+𝕀(r=0)⋅𝕀(vt∈ℛval)⏟Recuperación de valor en negativo\mu_t = \underbrace{\mathbb{I}(r=1) \cdot \mathbb{I}(v_t \notin \mathcal{P}_{ans})}_{\text{Callejones sin salida en positivo}} + \underbrace{\mathbb{I}(r=0) \cdot \mathbb{I}(v_t \in \mathcal{R}_{val})}_{\text{Recuperación valiosa en negativo}}. La ablación confirma que esto produce una convergencia más rápida y curvas de recompensa más estables que el GSPO de referencia sin poda.

Resultados y disponibilidad

VimRAG se evaluó en nueve puntos de referencia: HotpotQA, SQuAD, WebQA, SlideVQA, MMLongBench, LVBench, WikiHowQA, SyntheticQA y XVBench, un nuevo punto de referencia entre videos que el equipo de investigación construyó a partir de HowTo100M para abordar la falta de estándares de evaluación para la comprensión entre videos. Los nueve conjuntos de datos se fusionaron en un único corpus unificado de aproximadamente 200.000 elementos multimodales intercalados, lo que hizo que la evaluación fuera más difícil y más representativa de las condiciones del mundo real. GVE-7B sirvió como modelo de incrustación que admite la recuperación de texto a texto, imágenes y videos.

En Qwen3-VL-8B-Instruct, VimRAG logra una puntuación general de 50,1 frente a 43,6 de Mem1, la mejor línea de base anterior. En Qwen3-VL-4B-Instruct, VimRAG obtiene una puntuación de 45,2 frente a 40,6 de Mem1. En SlideVQA con la columna vertebral 8B, VimRAG alcanza 62,4 frente a 55,7; en SyntheticQA, 54,5 frente a 43,4. A pesar de introducir un paso de percepción dedicado, VimRAG también reduce la longitud total de la trayectoria en comparación con ReAct y Mem1, porque la memoria estructurada evita la relectura repetitiva y las búsquedas no válidas que hacen que los métodos lineales acumulen una gran cantidad de uso de tokens.

https://arxiv.org/pdf/2602.12735v1

Conclusiones clave

VimRAG reemplaza el historial de interacción lineal con un gráfico acíclico dirigido dinámico (Gráfico de memoria multimodal) que rastrea el estado de razonamiento del agente a lo largo de los pasos, evitando las consultas repetitivas y la ceguera de estado que afectan a los agentes RAG estándar de ReAct y basados ​​en resúmenes cuando manejan grandes volúmenes de datos visuales. La codificación de memoria visual modulada por gráficos resuelve el problema del presupuesto de tokens visuales al asignar dinámicamente tokens de alta resolución a la evidencia recuperada más importante en función de la relevancia semántica, la posición topológica en el gráfico y la decadencia temporal, en lugar de tratar todas las imágenes y cuadros de video recuperados con una resolución uniforme. La optimización de políticas guiada por gráficos (GGPO) corrige una falla fundamental en la forma en que se entrenan los modelos RAG agentes: las recompensas estándar basadas en resultados penalizan incorrectamente los buenos pasos de recuperación en trayectorias fallidas y recompensan incorrectamente los pasos redundantes en las exitosas. GGPO utiliza la estructura del gráfico para enmascarar esos gradientes engañosos a nivel de paso. Un estudio piloto que utilizó cuatro estrategias de memoria de modalidad cruzada demostró que la retención selectiva de tokens de visión relevantes (memoria visual relacionada semánticamente) logra la mejor compensación entre precisión y eficiencia, alcanzando el 58,2 % en tareas de imágenes y el 43,7 % en tareas de video con solo 2,7 mil tokens promedio, superando tanto el almacenamiento visual sin formato como los enfoques de compresión de solo texto. VimRAG supera todas las líneas de base en nueve puntos de referencia en un corpus unificado de aproximadamente 200.000 elementos de texto, imágenes y video entrelazados, con una puntuación general de 50,1 en Qwen3-VL-8B-Instruct frente a 43,6 para la mejor línea de base anterior Mem1, al tiempo que reduce la longitud total de la trayectoria de inferencia a pesar de agregar un paso de percepción multimodal dedicado.

Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.