El equipo de Baidu Qianfan presentó Qianfan-OCR, un modelo de extremo a extremo de 4 parámetros B diseñado para unificar el análisis de documentos, el análisis de diseño y la comprensión de documentos dentro de una arquitectura de lenguaje de visión única. A diferencia de los procesos tradicionales de OCR de múltiples etapas que encadenan módulos separados para la detección de diseño y el reconocimiento de texto, Qianfan-OCR realiza una conversión directa de imagen a Markdown y admite tareas basadas en indicaciones, como la extracción de tablas y la respuesta a preguntas de documentos.
Arquitectura y especificaciones técnicas
Qianfan-OCR utiliza la arquitectura de puente multimodal del marco Qianfan-VL. El sistema consta de tres componentes principales:
Vision Encoder (Qianfan-ViT): Emplea un diseño de cualquier resolución que agrupa imágenes en parches de 448 x 448. Admite entradas de resolución variable de hasta 4K, lo que produce hasta 4096 tokens visuales por imagen para mantener la resolución espacial para fuentes pequeñas y texto denso. Adaptador multimodal: un MLP liviano de dos capas con activación GELU que proyecta características visuales en el espacio de incrustación del modelo de lenguaje. Red troncal del modelo de lenguaje (Qwen3-4B): un modelo de 4.0B de parámetros con 36 capas y una ventana de contexto nativa de 32K. Utiliza atención de consultas agrupadas (GQA) para reducir el uso de la memoria caché KV en 4 veces.
Mecanismo de ‘diseño como pensamiento’
La característica principal del modelo es el diseño como pensamiento, una fase de pensamiento opcional activada por tokens. Durante esta fase, el modelo genera representaciones de diseño estructuradas, incluidos cuadros delimitadores, tipos de elementos y orden de lectura, antes de producir el resultado final.
Utilidad funcional: este proceso recupera capacidades de análisis de diseño explícito (localización de elementos y clasificación de tipos) que a menudo se pierden en los paradigmas de un extremo a otro. Características de rendimiento: La evaluación en OmniDocBench v1.5 indica que habilitar la fase de pensamiento proporciona una ventaja constante en documentos con una alta “entropía de etiqueta de diseño”, aquellos que contienen elementos heterogéneos como texto, fórmulas y diagramas mixtos. Eficiencia: las coordenadas del cuadro delimitador se representan como tokens especiales dedicados ( a ), lo que reduce la longitud de la producción de pensamiento en aproximadamente un 50 % en comparación con las secuencias de dígitos simples.
Rendimiento empírico y puntos de referencia
Qianfan-OCR se evaluó tanto con sistemas OCR especializados como con modelos generales de visión y lenguaje (VLM).
Análisis de documentos y OCR general
El modelo ocupa el primer lugar entre los modelos de extremo a extremo en varios puntos de referencia clave:
OmniDocBench v1.5: logró una puntuación de 93,12, superando a DeepSeek-OCR-v2 (91,09) y Gemini-3 Pro (90,33). Banco OlmOCR: obtuvo una puntuación de 79,8, liderando la categoría de principio a fin. OCRBench: logró una puntuación de 880, ocupando el primer lugar entre todos los modelos probados.
En los puntos de referencia públicos de KIE, Qianfan-OCR logró la puntuación promedio más alta (87,9), superando a modelos significativamente más grandes.
Comprensión del documento
Las pruebas comparativas revelaron que los procesos de OCR+LLM de dos etapas a menudo fallan en tareas que requieren razonamiento espacial. Por ejemplo, todos los sistemas de dos etapas probados obtuvieron una puntuación de 0,0 en los puntos de referencia CharXiv, ya que la fase de extracción de texto descarta el contexto visual (relaciones de ejes, posiciones de puntos de datos) necesario para la interpretación del gráfico.
Despliegue e inferencia
La eficiencia de la inferencia se midió en páginas por segundo (PPS) utilizando una única GPU NVIDIA A100.
Cuantización: con la cuantización W8A8 (AWQ), Qianfan-OCR logró 1.024 PPS, una aceleración 2 veces mayor que la línea base W16A16 con una pérdida de precisión insignificante. Ventaja de la arquitectura: a diferencia de los sistemas de canalización que dependen del análisis de diseño basado en CPU, que puede convertirse en un cuello de botella, Qianfan-OCR se centra en la GPU. Esto evita retrasos en el procesamiento entre etapas y permite una inferencia eficiente de lotes grandes.
Consulte Paper, Repo y Model en HF. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.