Allen Institute for AI lanzado OLMOCR: un kit de herramientas de código abierto de alto rendimiento diseñado para convertir las imágenes de PDF y documentar en texto simple limpio y estructurado

El acceso a datos textuales de alta calidad es crucial para avanzar en los modelos de lenguaje en la era digital. Los sistemas de IA modernos dependen de grandes conjuntos de datos de billones de tokens para mejorar su precisión y eficiencia. Si bien gran parte de estos datos provienen de Internet, existe una porción significativa en formatos como PDFS, que plantean desafíos únicos para la extracción de contenido. A diferencia de las páginas web, que están estructuradas para un fácil análisis, los PDF priorizan el diseño visual sobre el flujo de texto lógico, lo que dificulta extraer representaciones textuales coherentes. Las herramientas tradicionales de reconocimiento de carácter óptico (OCR) han intentado abordar estos desafíos, pero sus limitaciones han obstaculizado la adopción a gran escala en la capacitación en modelos de idiomas.

Un problema principal con el procesamiento de PDF es que estos documentos almacenan la información de manera óptima para la presentación visual en lugar de la orden de lectura lógica. Muchos PDF codifican texto a nivel de caracteres, registrando la posición de cada letra y los atributos de fuente sin preservar la estructura de las oraciones. Esto hace que sea difícil reconstruir una narrativa coherente en diseños o documentos de múltiples columnas con tablas, imágenes y ecuaciones integradas. Además, los PDF escaneados introducen desafíos adicionales, ya que contienen texto en formato de imagen en lugar de caracteres legibles por máquina. Extraer contenido estructurado y significativo de dichos documentos requiere herramientas especializadas para comprender los elementos textuales y visuales.

Anteriormente se han desarrollado varios enfoques para abordar el problema de extraer texto de PDFS. Las primeras tecnologías de OCR como Tesseract proporcionaron reconocimiento básico de caracteres, pero lucharon con diseños complejos. Los métodos más recientes incluyen sistemas basados ​​en tuberías, que combinan la extracción en múltiples tareas de aprendizaje automático, como la segmentación de la sección y el reconocimiento de la tabla. Estos incluyen herramientas como Grobid y Vila, que están diseñadas para artículos científicos. Por otro lado, modelos de extremo a extremo como Nougat y Got The Theory 2.0 intentan convertir las páginas completas de PDF en texto legible usando aprendizaje profundo. Sin embargo, muchos sistemas son costosos, poco confiables o ineficientes para aplicaciones a gran escala.

Investigadores del Instituto Allen para AI introdujeron olmocrioun kit de herramientas Python de código abierto diseñado para convertir eficientemente los PDF en texto plano estructurado mientras preserva el orden de lectura lógica. Este kit de herramientas integra información visual basada en texto, lo que permite una precisión de extracción superior en comparación con los métodos de OCR convencionales. El sistema se basa en un modelo de lenguaje de visión de 7 billones de parámetros (VLM), que ha sido ajustado en un conjunto de datos de 260,000 páginas PDF recopiladas de más de 100,000 documentos únicos. A diferencia de los enfoques OCR tradicionales, que tratan los PDF como meras imágenes, Olmocr aprovecha el texto integrado y su posicionamiento espacial para generar contenido estructurado de alta fidelidad. El sistema está optimizado para el procesamiento por lotes a gran escala, lo que permite la conversión rentable de grandes repositorios de documentos. Una de sus ventajas más notables es su capacidad para procesar un millón de páginas PDF por solo $ 190 USD, 32 veces más barato que GPT-4O, donde la misma tarea costaría $ 6,200 USD.

La innovación central detrás de OLMOCR es el anclaje de documentos, una técnica que combina metadatos textuales con análisis basado en imágenes. A diferencia de los modelos OCR de extremo a extremo que se basan únicamente en imágenes rasterizadas, este método extrae elementos textuales directamente de los datos integrados del PDF. Los alinea con sus representaciones visuales correspondientes. Esto mejora la capacidad del modelo para reconocer estructuras complejas de documentos, reducir los errores y mejorar la legibilidad general. El contenido extraído está formateado utilizando Markdown, preservando elementos estructurados como encabezados, listas, tablas y ecuaciones. Además, el sistema emplea técnicas de ajuste fino para mejorar la precisión de la extracción, utilizando un conjunto de datos curado específicamente para diversos diseños de documentos. El proceso de capacitación del modelo incluyó 10,000 pasos de optimización, utilizando un tamaño de cuatro lotes y una tasa de aprendizaje adaptativa de 1E-6. Olmocr ha sido diseñado para operar perfectamente con marcos de inferencia como VLLM y SGLANG.

El sistema logra una puntuación de alineación de 0.875 con su modelo de maestro, superando modelos a menor escala como GPT-4O Mini. En comparación directa con otras herramientas de OCR, Olmocr supera constantemente a los competidores en precisión y eficiencia. Cuando se somete a la evaluación humana, el sistema recibió la calificación ELO más alta entre los principales métodos de extracción de PDF. Además, cuando se usó el texto extraído Olmocr para la capacitación media en el modelo de idioma OLMO-2-1124-7B, resultó en una mejora promedio de precisión de 1.3 puntos porcentuales en múltiples tareas de referencia de IA. Se observaron ganancias de rendimiento específicas en conjuntos de datos como ARC Challenge y Drop, donde los datos de capacitación basados ​​en Olmocr contribuyeron a mejoras notables en la comprensión del modelo de lenguaje.

Varias conclusiones clave de la investigación sobre Olmocr incluyen:

  1. OLMOCR se basa en un modelo en idioma de visión de 7 billones de parámetros y ajustado en 260,000 páginas de 100,000 PDF, lo que garantiza una extracción robusta en diversos tipos de documentos.
  2. Utiliza el anclaje de documentos para combinar metadatos textuales con información basada en imágenes, mejorando significativamente la precisión de la extracción para el contenido estructurado.
  3. Procesa un millón de páginas PDF por solo $ 190, en comparación con $ 6,200 utilizando GPT-4O, lo que lo hace 32 veces más rentable para aplicaciones a gran escala.
  4. Logra un puntaje de alineación de 0.875, superando los modelos más pequeños y demostrando una precisión superior en la reconstrucción de la orden de lectura lógica.
  5. Supera a las herramientas OCR tradicionales en el reconocimiento de datos estructurados y el procesamiento a gran escala y tiene la puntuación ELO más alta en las evaluaciones humanas.
  6. Mejora la capacitación del modelo de idioma aumentando la precisión en 1.3 puntos porcentuales en conjuntos de datos de referencia de IA como ARC Challenge and Drop.
  7. Compatible con motores de inferencia como VLLM y Sglang, lo que permite la implementación flexible en varias configuraciones de hardware.

Verificar el Código de entrenamiento y kit de herramientas y Colección de cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.