Vision-Rag vs Text-Rag: una comparación técnica para la búsqueda empresarial

La mayoría de las fallas de trapo se originan en la recuperación, no en la generación. Las tuberías de texto primero pierden semántica de diseño, estructura de tabla y conexión a tierra de figura durante la conversión de texto PDF →, degradación del recuerdo y precisión antes de que se ejecute un LLM. Vision-Rag-Retrieving Rendered Pages con incrustaciones en el idioma de la visión-se dirige directamente a este cuello de botella y muestra las ganancias de extremo a extremo de los corpus visualmente ricos.

Tuberías (y dónde fallan)

Text-Rag. PDF → (analizador/OCR) → trozos de texto → incrustaciones de texto → índice ANN → recuperar → llm. Modos de falla típicos: ruido de OCR, rotura de flujo de columnas múltiples, pérdida de estructura de células de tabla y semántica de figura/gráfico faltantes, documentados por puntos de referencia de tabla y DOC-VQA creados para medir exactamente estas brechas.

Vision-Rag. PDF → Page Raster (s) → VLM Incrustaciones (a menudo múltiples vectores con puntuación de interacción tardía) → Ann índice → Recuperar → VLM/LLM consume cultivos o páginas completas de alta fidelidad. Esto conserva el diseño y la conexión a tierra de texto de figura; Los sistemas recientes (Colpali, Visrag, VDocrag) validan el enfoque.

Qué evidencia actual respalda

La recuperación de la imagen de documentos funciona y es más simple. Colpali incorpora imágenes de página y utiliza coincidencia de interacción tardía; En el referencia de Vidore, supera a las tuberías de texto modernas mientras permanece capacitable de extremo a extremo. El elevador de extremo a extremo es medible. Visrag informa una mejora de extremo a extremo 25–39% sobre el texto-RAG en documentos multimodales cuando tanto la recuperación como la generación usan un VLM. Formato de imagen unificado para documentos del mundo real. VDocrag muestra que mantener documentos en un formato de imagen unificado (tablas, gráficos, PPT/PDF) evita la pérdida del analizador y mejora la generalización; También presenta OpendoCVQA para la evaluación. La resolución impulsa la calidad del razonamiento. El soporte de alta resolución en VLMS (por ejemplo, QWEN2-VL/QWEN2.5-VL) está explícitamente vinculado a los resultados de SOTA en DOCVQA/MATHVISTA/MTVQA; Fidelity importa para garrapatas, superíndices, sellos y pequeñas fuentes.

Costos: el contexto de la visión es (a menudo) el orden de magnitud más pesado, porque los tokens

Las entradas de visión inflan los recuentos de tokens a través de mosaicos, no necesariamente por precio por juicio. Para los modelos de clase GPT-4O, los tokens totales ≈ Base + (Tile_Tokens × Malditas), por lo que las páginas de 1 a 2 MP pueden ser de ~ 10 × costo de un trozo de texto pequeño. Anthrope recomienda ~ 1.15 MP Caps (~ 1.6k tokens) para la capacidad de respuesta. Por el contrario, Google Gemini 2.5 precios flash-lite text/imagen/video a la misma tasa de prueba, pero las imágenes grandes aún consumen muchas más fichas. Implicación de la ingeniería: Adopte la fidelidad selectiva (Crop> Downsample> Página completa).

Reglas de diseño para la producción Vision-Rag

Alinear modalidades a través de incrustaciones. Use codificadores capacitados para la alineación de text↔image (recolectores de clip-familia o VLM) y, en la práctica, el índice dual: recuperación de texto barato para cobertura + visión vuelve a tener precisión. La interacción tardía de Colpali (MaxSim-Style) es un fuerte valor predeterminado para las imágenes de la página. Alimente las entradas de alta fidelidad selectivamente. Carre-to-Fine: ejecute BM25/DPR, lleve las páginas de Top-K a un Reranker de Vision, luego envíe solo cultivos de ROI (tablas, gráficos, sellos) al generador. Esto conserva píxeles cruciales sin explotar fichas bajo contabilidad basada en mosaicos. Ingeniero para documentos reales.
• Tablas: si debe analizar, usar modelos de estructura de tabla (p. Ej., Pubtables-1m/TatR); De lo contrario, prefiera la recuperación de imagen-nativa.
• Gráficos/diagramas: espere señales de nivel de tick y leyenda; La resolución debe retenerlos. Evaluar en conjuntos VQA centrados en la tabla.
• Whiteboards/Rotaciones/Multilingües: la representación de la página evita muchos modos de falla de OCR; Los scripts multilingües y los escaneos rotados sobreviven a la tubería.
• Procedencia: almacene las coordenadas de hash y cultivos junto con incrustaciones para reproducir la evidencia visual exacta utilizada en las respuestas.

StandardText-RagVision-Ragingest PipelinePDF → analizador/OCR → trozos de texto → Incrustos de texto → ANNPDF → Page Render (s) → VLM Page/Crop Incorpeds (a menudo multivector, interacción tardía) → ANN. Colpali es una implementación canónica. Drift modsarser de falla primaria, ruido de OCR, rotura de flujo de múltiples columnas, pérdida de estructura de tabla, semántica de figura/gráfico faltantes. Existen puntos de referencia porque estos errores son comunes. Diseño/figuras de conservas; Las fallas cambian a opciones de resolución/mosaico y alineación intermodal. VDocrag formaliza el procesamiento de “imagen unificada” para evitar la pérdida de análisis. Representaciones de retrimiento de texto de texto de vectores; Rerank a través de incrustaciones de imagen léxica o de la página cruzada con la interacción tardía (estilo MaxSim) capturan regiones locales; Mejora la recuperación a nivel de página en Vidore.End-To-End Gains (VS Text-RAG) Base+25–39% E2E en documentos multimodales cuando la recuperación y la generación están basadas en VLM (VISRAG). Donde Excelsclean, Corporos de texto y dominante; Docs de baja latencia/costvisualmente rico/estructurado: tablas, gráficos, sellos, escaneos rotados, tipografía multilingüe; El contexto de página unificada ayuda a QA. Sensibilidad de resolución No se aplique más allá de la configuración de OCR. VLMS de documentos de alta resolución (por ejemplo, familia QWEN2-VL) enfatiza esto. Modelo de costo (entradas) Tokens ≈ caracteres; Tokens de medición de contexto de recuperación barata crecen con mosaico: por ejemplo, base de opción+fórmula de azulejos; Guía antrópica ~ 1.15 MP ≈ ~ 1.6k tokens. Incluso cuando el precio por token es igual (Gemini 2.5 Flash-Lite), las páginas de alta resolución consumen muchas más tokens. Alineación intermodal no se requiere Criticical: Text↔Image Los codificadores deben compartir geometría para consultas mixtas; Colpali/Vidore demuestra una recuperación de imagen de página efectiva alineada con las tareas de lenguaje. Benchmarks to TrackDocVQA (DOC QA), Pubtables-1m (estructura de tabla) para diagnósticos de pérdida de pérdida. Vidore (recuperación de página), Visrag (tubería), VDocrag (trapo de imagen unificada). Enfoque de evaluación Métricas de texto más texto QA; puede perderse la figura de la figura, los problemas de conexión a tierra de la recuperación+gen en las suites visualmente ricas (por ejemplo, opendocvqa bajo vDocrag) para capturar la relevancia y el diseño de la conexión a tierra. Barato a Scalecoarse-a-Fine: Recuerdo de texto → Visión Rerank → Cultivos de ROI al generador; Mantiene los costos de token limitados al preservar la fidelidad. (Manadas de matemáticas/precios informan los presupuestos). Cuando preferircontratos/plantillas, código/wikis, datos tabulares normalizados (CSV/Parquet) documentos empresariales del mundo real con diseño/gráficos pesados; Flujos de trabajo de cumplimiento que necesitan procedencia exacto de píxeles (Page Hash + Crop Coords). Sistemas representativos DPR/BM25 + Cross-Ender Rerankcolpali (ICLR’25) Vision Retriever; Tubería Visrag; Marco de imagen unificado de VDocrag.

¿Cuando text-rag sigue siendo el valor predeterminado correcto?

Corporación limpia y dominante de texto (contratos con plantillas fijas, wikis, código) restricciones de latencia/costo estrictas para respuestas cortas ya se normalizan (CSV/parquet): píxeles de skip y consulta el almacén de la tabla

Evaluación: Medir recuperación + generación conjuntamente

Agregue los puntos de referencia de rag multimodal a su arnés: EG, M²RAG (QA multimodal, subtítulos, verificación de hechos, Reranking), Real-MM-Rag (recuperación multimodal del mundo real) y comprobación de trapo (relevancia + métricas de corrección para contexto multimodal). Estos casos de falla de captura (cultivos irrelevantes, falta de coincidencia de texto de figura) que se pierden las métricas de solo texto.

Resumen

Text-Rag sigue siendo eficiente para datos limpios y solo de texto. Vision-Rag es el valor predeterminado práctico para los documentos empresariales con diseño, tablas, gráficos, sellos, escaneos y tipografía multilingüe. Los equipos que (1) alinean las modalidades, (2) ofrecen evidencia visual selectiva de alta fidelidad y (3) evalúan con puntos de referencia multimodales consistentemente obtienen una mayor precisión de recuperación y mejores respuestas aguas abajo, ahora respaldadas por colpalí (ICLR 2025), los resultados de E2E de VISRAG de 25 a 39% y los resultados de la imagen de imagen de VDocragAg.

Referencias:

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial