DeepSeek AI lanza DeepSeek-OCR 2 con codificador de flujo visual causal para la comprensión de documentos según el diseño

DeepSeek AI lanzó DeepSeek-OCR 2, un sistema de comprensión y OCR de documentos de código abierto que reestructura su codificador de visión para leer páginas en un orden causal que se acerca más a cómo los humanos escanean documentos complejos. El componente clave es DeepEncoder V2, un transformador de estilo de modelo de lenguaje que convierte una página 2D en una secuencia 1D de tokens visuales que ya siguen un flujo de lectura aprendido antes de que comience la decodificación del texto.

https://github.com/deepseek-ai/DeepSeek-OCR-2

Del orden rasterizado al flujo visual causal

La mayoría de los modelos multimodales aún aplanan imágenes en una secuencia ráster fija, de arriba a izquierda a abajo a la derecha, y aplican un transformador con codificaciones posicionales estáticas. Esta es una mala combinación para documentos con diseños de varias columnas, tablas anidadas y regiones de idiomas mixtos. En cambio, los lectores humanos siguen un orden semántico que salta entre regiones.

DeepSeek-OCR 2 mantiene la estructura de codificador y decodificador de DeepSeek-OCR, pero reemplaza el codificador visual original basado en CLIP ViT con DeepEncoder V2. El decodificador sigue siendo DeepSeek-3B-A500M, un modelo de lenguaje MoE con alrededor de 3 mil millones de parámetros totales y alrededor de 500 millones de parámetros activos por token. El objetivo es permitir que el codificador realice un razonamiento causal sobre tokens visuales y entregarle al decodificador una secuencia que ya esté alineada con un orden de lectura probable.

Tokenizador de visión y presupuesto de tokens

El tokenizador de visión se hereda de DeepSeek-OCR. Utiliza una red troncal base SAM de parámetros de 80M seguida de 2 capas de convolución. Esta etapa reduce la muestra de la imagen para que el recuento de tokens visuales se reduzca en un factor de 16 y comprima las características en una dimensión de incrustación de 896.

DeepSeek-OCR 2 utiliza una estrategia de múltiples cultivos global y local para cubrir páginas densas sin permitir que el recuento de tokens explote. Una vista global con una resolución de 1024 × 1024 produce 256 tokens. Hasta 6 cultivos locales con resolución de 768 × 768 suman 144 tokens cada uno. Como resultado, el recuento de tokens visuales oscila entre 256 y 1120 por página. Este límite superior es ligeramente menor que el presupuesto de 1156 tokens utilizado en el modo Gundam del DeepSeek-OCR original, y es comparable al presupuesto utilizado por Gemini-3 Pro en OmniDocBench.

DeepEncoder-V2, modelo de lenguaje como codificador de visión

DeepEncoder-V2 se construye creando una instancia de un transformador estilo Qwen2-0.5B como codificador de visión. La secuencia de entrada se construye de la siguiente manera. Primero, todos los tokens visuales del tokenizador forman el prefijo. Luego, se añade como sufijo un conjunto de tokens de consulta que se pueden aprender, llamados tokens de flujo causal. La cantidad de fichas de flujo causal es igual a la cantidad de fichas visuales.

El patrón de atención es asimétrico. Los tokens visuales utilizan atención bidireccional y ven todos los demás tokens visuales. Los tokens de flujo causal utilizan atención causal y pueden ver todos los tokens visuales y solo los tokens de flujo causal anteriores. Sólo las salidas en posiciones de flujo causales pasan al decodificador. En efecto, el codificador aprende un mapeo de una cuadrícula 2D de tokens visuales en una secuencia causal 1D de tokens de flujo que codifican un orden de lectura propuesto y un contexto local.

Este diseño descompone el problema en 2 etapas. DeepEncoder-V2 realiza un razonamiento causal sobre la estructura visual y el orden de lectura. Luego, DeepSeek-3B-A500M realiza una decodificación causal sobre el texto condicionado a esta entrada visual reordenada.

https://github.com/deepseek-ai/DeepSeek-OCR-2

Canal de formación

La canalización de datos de entrenamiento sigue DeepSeek-OCR y se centra en contenido intensivo de OCR. Los datos OCR representan el 80 por ciento de la mezcla. El equipo de investigación reequilibra el muestreo entre textos, fórmulas y tablas utilizando una proporción de 3:1:1 para que el modelo vea suficientes ejemplos con mucha estructura.

El entrenamiento se desarrolla en 3 etapas:

En la etapa 1, el preentrenamiento del codificador acopla DeepEncoder-V2 a un decodificador pequeño y utiliza un objetivo de modelado de lenguaje estándar. El modelo está entrenado con resoluciones de 768 × 768 y 1024 × 1024 con muestreo multiescala. El tokenizador de visión se inicializa desde el DeepEncoder original. El codificador de estilo LLM se inicializa desde la base Qwen2-0.5B. El optimizador es AdamW con una disminución de la tasa de aprendizaje del coseno de 1e-4 a 1e-6 en 40.000 iteraciones. La capacitación utiliza alrededor de 160 GPU A100, una longitud de secuencia de 8k con empaquetado y una gran combinación de muestras de texto de imágenes de documentos.

En la etapa 2, la mejora de consultas conecta DeepEncoder-V2 a DeepSeek-3B-A500M e introduce vistas de múltiples cultivos. El tokenizador está congelado. El codificador y el decodificador se entrenan conjuntamente con un paralelismo de canalización de 4 etapas y 40 réplicas de datos en paralelo. El tamaño del lote global es 1280 y el programa se ejecuta durante 15 000 iteraciones con una tasa de aprendizaje que disminuye de 5e-5 a 1e-6.

En la etapa 3, todos los parámetros del codificador están congelados. Sólo el decodificador DeepSeek está capacitado para adaptarse mejor a los tokens visuales reordenados. Esta etapa utiliza el mismo tamaño de lote pero un cronograma más corto y una tasa de aprendizaje más baja que desciende de 1e-6 a 5e-8 en 20k iteraciones. Congelar el codificador duplica con creces el rendimiento del entrenamiento en esta etapa.

Resultados comparativos en OmniDocBench

La evaluación principal utiliza OmniDocBench-v1.5. Este punto de referencia contiene 1355 páginas en 9 categorías de documentos en chino e inglés, incluidos libros, artículos académicos, formularios, presentaciones y periódicos. Cada página está comentada con elementos de diseño como espacios de texto, ecuaciones, tablas y figuras.

DeepSeek-OCR 2 logra una puntuación general de OmniDocBench de 91,09 con un máximo de token visual de 1120. La línea de base de DeepSeek-OCR original obtiene una puntuación de 87,36 con un máximo de token de 1156. Por lo tanto, DeepSeek-OCR 2 gana 3,73 puntos mientras utiliza un presupuesto de token ligeramente menor.

Orden de lectura (orden R) Editar distancia, que mide la diferencia entre las secuencias de lectura previstas y reales, cae de 0,085 a 0,057. La distancia de edición de texto cae de 0,073 a 0,048. Las distancias de edición de fórmulas y tablas también disminuyen, lo que indica un mejor análisis de las regiones matemáticas y estructuradas.

Visto como un analizador de documentos, DeepSeek-OCR-2 logra una distancia de edición general a nivel de elemento de 0,100. El DeepSeek-OCR original alcanza 0,129 y el Gemini-3 Pro alcanza 0,115 bajo restricciones de token visual similares. Esto sugiere que el codificador de flujo visual causal mejora la fidelidad estructural sin expandir el presupuesto del token.

En cuanto a las categorías, DeepSeek-OCR-2 mejora la distancia de edición de texto para la mayoría de los tipos de documentos, como artículos académicos y libros. El rendimiento es más débil en periódicos muy densos, donde la distancia de edición del texto se mantiene por encima de 0,13. El equipo de investigación vincula esto con datos de entrenamiento limitados para periódicos y una fuerte compresión en densidad de texto extrema. Sin embargo, las métricas del orden de lectura mejoran en todas las categorías.

https://github.com/deepseek-ai/DeepSeek-OCR-2

Conclusiones clave

DeepSeek-OCR 2 reemplaza un codificador estilo CLIP ViT con DeepEncoder-V2, un codificador de modelo de lenguaje basado en Qwen2-0.5B que convierte una página de documento 2D en una secuencia 1D de tokens de flujo causal alineados con un orden de lectura aprendido. El tokenizador de visión utiliza una columna vertebral de base SAM de parámetros de 80 millones con convoluciones, vistas globales y locales de múltiples cultivos, y mantiene el presupuesto de token visual entre 256 y 1120 tokens por página, ligeramente por debajo del modo DeepSeek-OCR Gundam original, sin dejar de ser comparable a Gemini 3 Pro. La capacitación sigue un proceso de 3 etapas, preentrenamiento del codificador, mejora de consultas conjuntas con DeepSeek-3B-A500M y ajuste fino solo del decodificador con el codificador congelado, usando una mezcla de datos pesados ​​de OCR con 80 por ciento de datos de OCR y una proporción de muestreo de 3 a 1 a 1 sobre texto, fórmulas y tablas. En OmniDocBench v1.5 con 1355 páginas y 9 categorías de documentos, DeepSeek-OCR 2 alcanza una puntuación general de 91,09 frente a 87,36 para DeepSeek-OCR, reduce la distancia de edición del orden de lectura de 0,085 a 0,057 y logra una distancia de edición a nivel de elemento de 0,100 en comparación con 0,129 para DeepSeek-OCR y 0,115 para Gemini-3. Pro con presupuestos de tokens visuales similares.

Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.