Reducto AI lanzó Rolmocr: un modelo SOTA OCR construido en Qwen 2.5 VL, de código abierto y Apache 2.0 con licencia para la comprensión de documentos avanzados

El reconocimiento de caracteres ópticos (OCR) ha sido durante mucho tiempo una piedra angular de la digitalización de documentos, lo que permite la transformación del texto impreso en formatos legibles por máquina. Sin embargo, los sistemas OCR tradicionales enfrentan limitaciones significativas a medida que el mundo se vuelve cada vez más multilingüe y depende del contenido escrito a mano y con estructuración visual. Estos sistemas a menudo luchan con las complejidades de diversos scripts, contenido escrito a mano de forma libre y documentos que incluyen diseños intrincados con contexto visual. Además, muchas soluciones de OCR siguen siendo limitadas por licencias patentadas, lo que las hace inaccesibles para modificar o usar en aplicaciones personalizadas a gran escala. La demanda de modelos OCR abiertos, de alto rendimiento y conscientes de contexto nunca ha sido mayor, particularmente a medida que las empresas y los desarrolladores buscan integrar la comprensión inteligente de documentos en sus flujos de trabajo.

Reducto ai ha introducido Rolmocrun modelo OCR de última generación que avanza significativamente en la tecnología del idioma visual. Lanzado bajo la licencia Apache 2.0, Rolmocr se basa en Qwen2.5-VL, un poderoso modelo en idioma de visión desarrollado por Alibaba. Esta base estratégica permite que Rolmocr vaya más allá del reconocimiento de caracteres tradicional al incorporar una comprensión más profunda del diseño visual y el contenido lingüístico. El momento de su liberación es notable, coincidiendo con la creciente necesidad de sistemas OCR que puedan interpretar con precisión una variedad de idiomas y formatos, desde notas escritas a mano hasta formas gubernamentales estructuradas.

ROLMOCR aprovecha la fusión subyacente en idioma visión de Qwen-VL para comprender los documentos de manera integral. A diferencia de los modelos OCR convencionales, interpreta elementos visuales y textuales, lo que le permite reconocer personajes impresos y escritos a mano en múltiples idiomas, pero también el diseño estructural de documentos. Esto incluye capacidades como la detección de la tabla, el análisis de la casilla de verificación y la asociación semántica entre las regiones de imágenes y el texto. Al apoyar las interacciones indicadas, los usuarios pueden consultar el modelo con lenguaje natural para extraer contenido específico de documentos, mejorando su usabilidad en entornos dinámicos o basados en reglas. Su rendimiento en diversos conjuntos de datos, incluidos documentos escaneados en el mundo real y lenguajes de baja recursos, establece un nuevo punto de referencia en OCR de código abierto.

Las capacidades robustas de Rolmocr pueden automatizar el procesamiento de formas multilingües, permisos y contratos con alta fidelidad en los sectores legal y gubernamental. Las comunidades educativas y de investigación se benefician de su capacidad para digitalizar notas escritas a mano, archivos históricos y publicaciones académicas, haciéndolas buscar y analizar. En las operaciones financieras y de seguros, Rolmocr facilita la extracción de información estructurada de facturas, declaraciones y documentos de póliza. Las instituciones de atención médica pueden usar el modelo para digitalizar recetas escritas a mano y formularios de admisión de pacientes, mejorando la accesibilidad y el cumplimiento de los datos. Además, Rolmocr es compatible con los motores de búsqueda inteligentes al transformar documentos escaneados en conjuntos de datos estructurados adecuados para la indexación y recuperación. Su mecanismo de consulta basado en aviso mejora aún más su adaptabilidad, lo que permite a los desarrolladores integrar el razonamiento impulsado por OCR en agentes de IA o automatización de flujo de trabajo.

En conclusión, Reducto AI ofrece una herramienta que se desempeña excepcionalmente bien en diversos tipos de documentos e idiomas y empodera la innovación a través del uso sin restricciones. El lanzamiento de Rolmocr bajo una licencia Apache 2.0 garantiza que pueda ajustarse, integrarse y ampliarse en entornos académicos y comerciales. Herramientas como Rolmocr serán fundamentales para proporcionar soluciones OCR escalables, inteligentes e inclusivas. Basado en Qwen2.5-VL, su arquitectura ofrece una visión del futuro de la comprensión de documentos impulsada por la IA, que es multilingüe, consciente de diseño y programable.

Verificar el Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre código abierto AI: Registro gratuito + Certificado de Asistencia + Evento corto de 3 horas (12 de abril, 9 a.m. a 12 p.m. PST) + Hands on Workshop [Sponsored]

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Reducto AI lanzó Rolmocr: un modelo SOTA OCR construido en Qwen 2.5 VL, de código abierto y Apache 2.0 con licencia para la comprensión de documentos avanzados

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Los mejores modelos de reconocimiento de voz abierto (ASR) en 2026: comparación de WER, idiomas, latencia y licencia

Anthropic lanza el complemento Claude Security para Claude Code en versión Beta: un escáner de vulnerabilidades multiagente que se ejecuta en su terminal

Cursor lanza Cursor Router: un clasificador a nivel de solicitud que ofrece calidad de codificación de vanguardia a un costo entre un 30 % y un 50 % menor

You missed

Los mejores modelos de reconocimiento de voz abierto (ASR) en 2026: comparación de WER, idiomas, latencia y licencia

La administración Trump quiere cambiar las reglas de participación pública para los contaminadores

Trump parece completamente despistado sobre las primarias de Arizona

El podcast UE-Startups | Entrevista con Lena Hackelöer, fundadora y directora ejecutiva de Brite Payments