Meet dots.OCR: un nuevo modelo en idioma de visión de 1.7B que logra el rendimiento de SOTA en el análisis de documentos multilingües




puntos es un modelo de transformador de lenguaje de visión de código abierto desarrollado para el análisis de diseño de documentos multilingües y el reconocimiento de caracteres ópticos (OCR). Realiza la detección de diseño y el reconocimiento de contenido dentro de una sola arquitectura, que admite más de 100 idiomas y una amplia variedad de tipos de documentos estructurados y no estructurados.

Arquitectura

  • Modelo unificado: dots.OCR combina la detección de diseño y el reconocimiento de contenido en una sola red neuronal basada en transformadores. Esto elimina la complejidad de las tuberías de detección y OCR separadas, lo que permite a los usuarios cambiar las tareas ajustando las indicaciones de entrada.
  • Parámetros: El modelo contiene 1,7 mil millones de parámetros, equilibrando la eficiencia computacional con el rendimiento para la mayoría de los escenarios prácticos.
  • Flexibilidad de entrada: Las entradas pueden ser archivos de imagen o documentos PDF. El modelo presenta opciones de preprocesamiento (como FITZ_PROPROCESS) para optimizar la calidad en archivos de baja resolución o densos de múltiples páginas.

Capacidades

  • Plurilingüe: dots.OCR está entrenado en conjuntos de datos que abarcan más de 100 idiomas, incluidos los principales idiomas del mundo y los scripts menos comunes, que reflejan un amplio soporte multilingüe.
  • Extracción de contenido: El modelo extrae texto plano, datos tabulares, fórmulas matemáticas (en látex) y conserva el orden de lectura dentro de los documentos. Los formatos de salida incluyen JSON, Markdown y HTML estructurados, dependiendo del tipo de diseño y contenido.
  • Conserva la estructura: dots.OCR mantiene la estructura de documentos, incluidos los límites de la tabla, las regiones de fórmula y las ubicaciones de la imagen, garantizar que los datos extraídos sigan siendo fieles al documento original.

Rendimiento de referencia

dots.OCR ha sido evaluado contra sistemas de IA de documentos modernos, con resultados resumidos a continuación:

Punto de referencia puntos Géminis2.5-pro
Precisión de la tabla Teds 88.6% 85.8%
Distancia de edición de texto 0.032 0.055
  • Tablas: Supera a Gemini2.5-Pro en la precisión de análisis de la tabla.
  • Texto: Demuestra una distancia de edición de texto más baja (que indica una precisión más alta).
  • Fórmulas y diseño: Coincide o excede los modelos principales en el reconocimiento de la fórmula y la reconstrucción de la estructura de documentos.
https://github.com/rednote-hilab/dots.ocr/blob/master/assets/blog.md

Implementación e integración

  • Código abierto: Lanzado bajo la licencia MIT, con modelos de fuente, documentación y pretrados disponibles en GitHub. El repositorio proporciona instrucciones de instalación para las implementaciones basadas en PIP, Conda y Docker.
  • API y secuencias de comandos: Admite la configuración de tareas flexibles a través de plantillas de inmediato. El modelo se puede utilizar interactivamente o dentro de tuberías automatizadas para el procesamiento de documentos por lotes.
  • Formatos de salida: Los resultados extraídos se suministran en JSON estructurado para uso programático, con opciones para Markdown y HTML cuando sea apropiado. Los scripts de visualización permiten la inspección de diseños detectados.

Conclusión

Dots.OCR proporciona una solución técnica para el análisis de documentos multilingües de alta precisión al unificar la detección de diseño y el reconocimiento de contenido en un solo modelo de código abierto. Es particularmente adecuado para escenarios que requieren un análisis de documentos robusto y agnóstico del lenguaje y la extracción de información estructurada en entornos de producción limitados por recursos o restringidos.


Mira el Página de Github. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.