Cómo extraer consistentemente metadatos de documentos complejos

cantidades de información importante. Sin embargo, esta información, en muchos casos, está oculta en lo más profundo del contenido de los documentos y, por lo tanto, es difícil de utilizar para tareas posteriores. En este artículo, analizaré cómo extraer metadatos de manera consistente de sus documentos, considerando los enfoques para la extracción de metadatos y los desafíos que enfrentará en el camino.

El artículo es una descripción general de nivel superior sobre cómo realizar la extracción de metadatos en documentos, destacando las diferentes consideraciones que debe tener en cuenta al realizar la extracción de metadatos.

Esta infografía destaca los contenidos principales de este artículo. Primero discutiré por qué necesitamos extraer metadatos de documentos y cómo es útil para tareas posteriores. A continuación, analizaré enfoques para extraer metadatos, con Regex, OCR + LLM y Vision LLM. Por último, también analizaré los diferentes desafíos al realizar la extracción de metadatos, como expresiones regulares, texto escrito a mano y manejo de documentos largos. Imagen de ChatGPT.

¿Por qué extraer metadatos de documentos?

Primero, es importante aclarar por qué necesitamos extraer metadatos de los documentos. Después de todo, si la información ya está presente en los documentos, ¿no podemos simplemente encontrarla utilizando RAG u otros enfoques similares?

En muchos casos, RAG podría encontrar puntos de datos específicos, pero la extracción previa de metadatos simplifica muchas tareas posteriores. Con metadatos, puede, por ejemplo, filtrar sus documentos en función de puntos de datos, como por ejemplo:

Tipo de documento Direcciones Fechas

Además, si cuenta con un sistema RAG, en muchos casos se beneficiará de metadatos adicionales. Esto se debe a que presenta la información adicional (los metadatos) de manera más clara al LLM. Por ejemplo, supongamos que hace una pregunta relacionada con las fechas. En ese caso, es más fácil simplemente proporcionar las fechas de los documentos extraídos previamente al modelo, en lugar de que el modelo extraiga las fechas durante el tiempo de inferencia. Esto ahorra costos y latencia y es probable que mejore la calidad de sus respuestas RAG.

Cómo extraer metadatos

Destaco tres enfoques principales para extraer metadatos, desde el más simple al más complejo:

Regex OCR + LLM Visión LLM

Esta imagen destaca los tres enfoques principales para extraer metadatos. El método más sencillo es utilizar Regex, aunque no funciona en muchas situaciones. Un enfoque más potente es OCR + LLM, que funciona bien en la mayoría de los casos, pero falla en situaciones en las que se depende de información visual. Si la información visual es importante, puede utilizar los LLM de visión, el enfoque más poderoso. Imagen de ChatGPT.

expresión regular

Regex es el enfoque más simple y consistente para extraer metadatos. Regex funciona bien si conoce de antemano el formato exacto de los datos. Por ejemplo, si está procesando contratos de arrendamiento y sabe que la fecha está escrita como dd.mm.aaaa, siempre justo después de las palabras “Fecha:”, entonces la expresión regular es el camino a seguir.

Desafortunadamente, la mayor parte del procesamiento de documentos es más complejo que esto. Tendrás que lidiar con documentos inconsistentes y con desafíos como:

Las fechas están escritas en diferentes lugares del documento. Al texto le faltan algunos caracteres debido a un OCR deficiente. Las fechas están escritas en diferentes formatos (por ejemplo, mm.dd.aaaa, 22 de octubre, 22 de diciembre, etc.)

Debido a esto, normalmente tenemos que pasar a enfoques más complejos, como OCR + LLM, que describiré en la siguiente sección.

OCR + Máster en Derecho

Un enfoque poderoso para extraer metadatos es utilizar OCR + LLM. Este proceso comienza aplicando OCR a un documento para extraer el contenido del texto. Luego, toma el texto editado con OCR y solicita a un LLM que extraiga la fecha del documento. Por lo general, esto funciona increíblemente bien, porque los LLM son buenos para comprender el contexto (qué fecha es relevante y qué fechas son irrelevantes) y pueden comprender fechas escritas en todo tipo de formatos diferentes. En muchos casos, los LLM también podrán comprender los estándares de fechas europeos (dd.mm.aaaa) y estadounidenses (mm.dd.aaaa).

Esta figura muestra el enfoque OCR + LLM. En el lado derecho, verá que primero realizamos OCR en el documento, que extrae el texto del documento. Luego podemos pedirle al LLM que lea ese texto y extraiga una fecha del documento. Luego, el LLM genera la fecha extraída del documento. Imagen del autor.

Sin embargo, en algunos escenarios, los metadatos que desea extraer requieren información visual. En estos escenarios, es necesario aplicar la técnica más avanzada: los LLM de visión.

Visión LLM

El uso de LLM de visión es el enfoque más complejo, con mayor latencia y costo. En la mayoría de los escenarios, ejecutar LLM de visión será mucho más costoso que ejecutar LLM basados ​​exclusivamente en texto.

Cuando se ejecutan LLM de visión, generalmente debe asegurarse de que las imágenes tengan alta resolución, para que el LLM de visión pueda leer el texto de los documentos. Esto requiere entonces una gran cantidad de tokens visuales, lo que encarece el procesamiento. Sin embargo, los LLM de visión con imágenes de alta resolución generalmente podrán extraer información compleja, que OCR + LLM no pueden, por ejemplo, la información proporcionada en la imagen a continuación.

Esta imagen resalta una tarea en la que necesita utilizar LLM de visión. Si realiza el OCR en esta imagen, podrá extraer las palabras “Documento 1, Documento 2, Documento 3”, pero el OCR omitirá por completo la casilla de verificación completa. Esto se debe a que el OCR está entrenado para extraer caracteres y no cifras, como la casilla de verificación con un círculo. Por lo tanto, intentar utilizar OCR + LLM fallará en este escenario. Sin embargo, si en su lugar utiliza un LLM de visión para este problema, podrá extraer fácilmente qué documento está marcado. Imagen del autor.

Los LLM de Vision también funcionan bien en escenarios con texto escrito a mano, donde el OCR puede tener dificultades.

Desafíos al extraer metadatos

Como señalé anteriormente, los documentos son complejos y vienen en varios formatos. Por lo tanto, existen muchos desafíos a los que hay que enfrentarse al extraer metadatos de documentos. Destacaré tres de los principales desafíos:

Cuándo usar visión versus OCR + LLM Manejo de texto escrito a mano Manejo de documentos largos

Cuándo utilizar los LLM de visión frente a OCR + LLM

Preferiblemente, usaríamos LLM de visión para toda la extracción de metadatos. Sin embargo, esto generalmente no es posible debido al costo de ejecutar los LLM en visión. Por lo tanto, tenemos que decidir cuándo usar LLM de visión versus cuándo usar OCR + LLM.

Una cosa que puedes hacer es decidir si el punto de metadatos que deseas extraer requiere información visual o no. Si se trata de una cita, OCR + LLM funcionará bastante bien en casi todos los escenarios. Sin embargo, si sabe que está tratando con casillas de verificación como en la tarea de ejemplo que mencioné anteriormente, debe aplicar LLM de visión.

Tratar con texto escrito a mano

Un problema con el enfoque mencionado anteriormente es que algunos documentos pueden contener texto escrito a mano, que el OCR tradicional no es particularmente bueno para extraer. Si su OCR es deficiente, el LLM que extrae metadatos también funcionará mal. Por lo tanto, si sabe que está tratando con texto escrito a mano, le recomiendo aplicar LLM de visión, ya que, según mi propia experiencia, son mucho mejores para manejar la escritura a mano. Es importante tener en cuenta que muchos documentos contendrán tanto texto digital como escritura a mano.

Manejo de documentos largos

En muchos casos, también tendrás que lidiar con documentos extremadamente largos. Si este es el caso, debe considerar hasta qué punto en el documento podría estar presente un punto de metadatos.

La razón por la que esto es una consideración es que desea minimizar el costo, y si necesita procesar documentos extremadamente largos, necesita tener muchos tokens de entrada para sus LLM, lo cual es costoso. En la mayoría de los casos, la información importante (la fecha, por ejemplo) estará presente al principio del documento, en cuyo caso no necesitará muchos tokens de entrada. En otras situaciones, sin embargo, la información relevante puede estar presente en la página 94, en cuyo caso necesitará muchos tokens de entrada.

El problema, por supuesto, es que no se sabe de antemano en qué página están presentes los metadatos. Por lo tanto, básicamente hay que tomar una decisión, como mirar sólo las primeras 100 páginas de un documento determinado y asumir que los metadatos están disponibles en las primeras 100 páginas, para casi todos los documentos. Se perderá un punto de datos en las raras ocasiones en que los datos estén en la página 101 y siguientes, pero ahorrará mucho en costos.

Conclusión

En este artículo, analicé cómo puede extraer metadatos de sus documentos de manera consistente. Estos metadatos suelen ser críticos cuando se realizan tareas posteriores, como filtrar sus documentos en función de puntos de datos. Además, hablé de tres enfoques principales para la extracción de metadatos con Regex, OCR + LLM y Vision LLM, y cubrí algunos desafíos que enfrentará al extraer metadatos. Creo que la extracción de metadatos sigue siendo una tarea que no requiere mucho esfuerzo, pero que puede aportar mucho valor en tareas posteriores. Por lo tanto, creo que la extracción de metadatos seguirá siendo importante en los próximos años, aunque creo que veremos cada vez más extracción de metadatos utilizando exclusivamente LLM de visión, en lugar de OCR + LLM.

👉 Encuéntrame en las redes sociales:

🧑‍💻 Ponte en contacto

📩 Suscríbete a mi newsletter

🔗 LinkedIn

🐦X/Twitter

✍️ Medio

También puedes leer algunos de mis otros artículos: