Screenshot 2024 06 12 At 8.16.29 Am.png

La comprensión de documentos es un campo crítico que se centra en convertir documentos en información significativa. Esto implica leer e interpretar texto y comprender el diseño, los elementos no textuales y el estilo del texto. La capacidad de comprender la disposición espacial, las pistas visuales y la semántica textual es esencial para extraer e interpretar información de los documentos con precisión. Este campo ha ganado gran importancia con la llegada de los grandes modelos de lenguaje (LLM) y el uso cada vez mayor de imágenes de documentos en diversas aplicaciones.

El principal desafío abordado en esta investigación es la extracción efectiva de información de documentos que contienen una combinación de elementos textuales y visuales. Los modelos tradicionales de solo texto a menudo necesitan ayuda para interpretar las disposiciones espaciales y los elementos visuales, lo que da como resultado una comprensión incompleta o inexacta. Esta limitación es particularmente evidente en tareas como Document Visual Question Answering (DocVQA), donde comprender el contexto requiere integrar perfectamente información visual y textual.

Los métodos existentes para la comprensión de documentos normalmente se basan en motores de reconocimiento óptico de caracteres (OCR) para extraer texto de las imágenes. Sin embargo, estos métodos podrían mejorar su capacidad para incorporar pistas visuales y la disposición espacial del texto, que son cruciales para la comprensión integral de los documentos. Por ejemplo, en DocVQA, el rendimiento de los modelos de solo texto es significativamente menor en comparación con los modelos que pueden procesar tanto texto como imágenes. La investigación destacó la necesidad de que los modelos integren estos elementos para mejorar la precisión y el rendimiento de manera efectiva.

Los investigadores de Snowflake evaluaron varias configuraciones de modelos GPT-4, incluida la integración de motores OCR externos con imágenes de documentos. Este enfoque tiene como objetivo mejorar la comprensión de los documentos combinando texto reconocido por OCR con entradas visuales, permitiendo que los modelos procesen simultáneamente ambos tipos de información. El estudio examinó diferentes versiones de GPT-4, como el modelo TURBO V, que admite imágenes de alta resolución y ventanas de contexto extensas de hasta 128k tokens, lo que le permite manejar documentos complejos de manera más efectiva.

El método propuesto se evaluó utilizando varios conjuntos de datos, incluidos DocVQA, InfographicsVQA, SlideVQA y DUDE. Estos conjuntos de datos representan muchos tipos de documentos, desde documentos con uso intensivo de texto hasta documentos con uso intensivo de visión y de varias páginas. Los resultados demostraron mejoras significativas en el rendimiento, particularmente cuando se utilizaron texto e imágenes. Por ejemplo, el modelo GPT-4 Vision Turbo logró una puntuación ANLS de 87,4 en DocVQA y 71,9 en InfographicsVQA cuando se proporcionaron texto e imágenes OCR como entrada. Estos puntajes son notablemente más altos que los logrados por los modelos de solo texto, lo que resalta la importancia de integrar información visual para una comprensión precisa de los documentos.

La investigación también proporcionó un análisis detallado del desempeño del modelo en diferentes tipos de evidencia de entrada. Por ejemplo, el estudio encontró que el texto proporcionado por OCR mejoró significativamente los resultados de texto, formularios, listas y tablas libres en DocVQA. Por el contrario, la mejora fue menos pronunciada para figuras o imágenes, lo que indica que el modelo se beneficia más de elementos ricos en texto estructurados dentro del documento. El análisis reveló un sesgo de primacía, ya que el modelo funcionaba mejor cuando la información relevante se ubicaba al principio del documento de entrada.

Una evaluación adicional mostró que el modelo GPT-4 Vision Turbo superó a los modelos más pesados ​​de solo texto en la mayoría de las tareas. El mejor rendimiento se logró con imágenes de alta resolución (2048 píxeles en el lado más largo) y texto OCR. Por ejemplo, en el conjunto de datos SlideVQA, el modelo obtuvo una puntuación de 64,7 con imágenes de alta resolución, en comparación con puntuaciones más bajas con imágenes de menor resolución. Esto resalta la importancia de la calidad de la imagen y la precisión del OCR para mejorar el rendimiento de la comprensión de los documentos.

En conclusión, la investigación avanzó en la comprensión de los documentos al demostrar la eficacia de integrar texto reconocido por OCR con imágenes de documentos. El modelo GPT-4 Vision Turbo tuvo un rendimiento superior en varios conjuntos de datos y logró resultados de última generación en tareas que requieren comprensión textual y visual. Este enfoque aborda las limitaciones de los modelos de solo texto y proporciona una comprensión más completa de los documentos. Los hallazgos subrayan el potencial de mejorar la precisión en la interpretación de documentos complejos, allanando el camino para sistemas de comprensión de documentos más efectivos y confiables.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.