La conversión de documentos complejos en datos estructurados ha planteado durante mucho tiempo desafíos significativos en el campo de la informática. Los enfoques tradicionales, que involucran sistemas de conjunto o modelos fundamentales muy grandes, a menudo encuentran obstáculos sustanciales, como dificultad para ajustar, problemas de generalización, alucinaciones y altos costos computacionales. Los sistemas de conjunto, aunque eficientes para tareas específicas, frecuentemente no se generalizan debido a su dependencia de las tuberías artesanales para cada subasta. Por otro lado, los modelos fundamentales multimodales, aunque potentes, a menudo sufren altos costos computacionales y problemas de confiabilidad como las alucinaciones.
Investigadores de IBM y Hugging Face han abordado recientemente estos desafíos al lanzar Smoldocling, un modelo de lenguaje de visión de código abierto de 256 m diseñado explícitamente para tareas de conversión de documentos multimodales de extremo a extremo. A diferencia de los modelos fundamentales más grandes, Smoldocling proporciona una solución simplificada que procesa páginas completas a través de un solo modelo, reduciendo significativamente la complejidad y las demandas computacionales. Su naturaleza ultra compactación, con solo 256 millones de parámetros, lo hace notablemente liviano y eficiente en recursos. Los investigadores también desarrollaron un formato de marcado universal llamado Doctags, que captura con precisión elementos de página, sus estructuras y contextos espaciales en una forma altamente compacta y clara.
Smoldocling aprovecha la compacta SMOLVLM-256M de Hugging Face como su base de arquitectura, que presenta reducciones significativas en la complejidad computacional a través de la tokenización optimizada y los métodos agresivos de compresión de características visuales. Su principal fortaleza se encuentra en el formato innovador de doctags, que proporciona un marcado estructurado que separa claramente el diseño del documento, el contenido textual y la información visual, como ecuaciones, tablas, fragmentos de código y gráficos. Smoldocling utiliza el aprendizaje curricular para una capacitación eficiente, lo que inicialmente implica congelar su codificador de visión y ajustarlo gradualmente utilizando conjuntos de datos enriquecidos que mejoran la alineación visual-semántica en diferentes elementos de documentos. Además, la eficiencia del modelo le permite procesar páginas completas de documentos a velocidades de rayo, promediando solo 0.35 segundos por página en una GPU de consumo mientras consume menos de 500 MB de VRAM.
Los datos de rendimiento claramente posicionan a la luz a la vanguardia de las tecnologías actuales. En pruebas de referencia integrales que involucran varias tareas de conversión de documentos, Smoldocling superó a los modelos competitivos sustancialmente más grandes. Por ejemplo, en las tareas de OCR de documentos de la página completa, Smoldocling logró métricas de precisión significativamente mejores, como una distancia de edición notablemente más baja (0.48) y un puntaje F1 más alto (0.80), en comparación con modelos como Qwen2.5 VL (parámetros 7B) y Nougat (parámetros de 350 m). También se destacó en la transcripción de la ecuación, logrando un puntaje F1 de 0.95, que coinciden con modelos de última generación como GOT. Además, Smoldocling estableció un nuevo punto de referencia en el reconocimiento del fragmento de código, demostrando puntajes de alta precisión y recuerdo de 0.94 y 0.91 respectivamente.
Lo que distingue a Smoldocling de otros documentos de soluciones OCR es su capacidad de manejar diversos elementos dentro de documentos, incluidos elementos intrincados como código, gráficos, ecuaciones y diseños variados. Sus capacidades se extienden más allá de los documentos científicos típicos para manejar de manera confiable patentes, formularios y documentación comercial. Al ofrecer metadatos estructurados integrales a través de doctags, Smoldocling elimina la ambigüedad inherente a formatos como HTML o Markdown, mejorando la usabilidad posterior de las conversiones de documentos. Su tamaño compacto permite un procesamiento por lotes a gran escala a demandas de recursos notablemente bajas, lo que facilita las implementaciones rentables a escala.
En conclusión, Smoldocling representa un avance significativo en la tecnología de conversión de documentos, lo que demuestra que los modelos compactos no solo pueden competir sino superar sustancialmente modelos fundamentales más grandes en tareas cruciales. Los investigadores han demostrado con éxito cómo la capacitación específica, el aumento de datos innovadores y los nuevos formatos de marcado como los doctags pueden superar las limitaciones tradicionales asociadas con el tamaño y la complejidad. El lanzamiento de Smoldocling no solo establece un nuevo estándar en eficiencia y versatilidad para las tecnologías OCR, sino que también proporciona un recurso invaluable para la comunidad a través de conjuntos de datos abiertamente disponibles y una arquitectura de modelo altamente eficiente y compacta. Esto marca un avance sustancial en la comprensión de los documentos y abre nuevas posibilidades emocionantes para aplicaciones de nivel empresarial y accesibilidad más amplia.
Verificar el Papel y Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.