Obtenga texto subrayado de cualquier PDF con Python | de Sasha Korovkina

Una guía paso a paso para obtener texto subrayado como una matriz a partir de archivos PDF.

💡 Si quieres ver el código de este proyecto, consulta mi repositorio: https://github.com/sasha-korovkina/pdfUnderlinedExtractor

La extracción de datos PDF puede ser un verdadero dolor de cabeza, y se vuelve aún más complicado cuando intentas capturar texto subrayado; lo creas o no, no existen soluciones ni bibliotecas que manejen esto de manera inmediata. Pero no te preocupes, estoy aquí para mostrarte cómo abordar esto.

La teoría

La extracción de texto subrayado de archivos PDF puede seguir diferentes caminos. Podría considerar usar OCR para detectar componentes de texto con líneas inferiores o profundizar en las capacidades de marcado de PyMuPDF. Sin embargo, descubrí que el OCR tiende a fallar y sufre de inconsistencia y baja precisión. PyMuPDF tampoco es mi favorito: exige un delicado ajuste de parámetros, lo que requiere mucho tiempo. Además, una configuración incorrecta podría perder una gran cantidad de datos.

Es importante recordar que los PDF son:

Datos no estructurados: Los elementos del PDF a menudo carecen de agrupación o categorización, lo que complica los esfuerzos de búsqueda sistemática en el contenido.
Reconocimiento de formato de texto: Detectar formatos de texto específicos, como negrita o subrayado, es muy difícil en archivos PDF, ya que la mayoría de las bibliotecas de Python no admiten esta capacidad de manera efectiva.

Pero no temas, ya que tenemos una estrategia para resolver esto.

La estrategia

Convierta el PDF a XML estructurado: comience transformando el documento PDF a un formato XML estructurado para facilitar la manipulación de datos.
Extraer componentes deseados: Identificar y aislar los componentes específicos del XML que sean relevantes para nuestras necesidades.
Utilice OCR (reconocimiento óptico de caracteres) en las coordenadas extraídas para obtener los datos del texto subrayado como una matriz.
Extraer y generar texto subrayado: finalmente, extraiga el texto subrayado del documento y muestre o imprima los resultados.

El código

PDF a XML

Usaremos el consulta pdf Library, el conversor de PDF a XML más completo que he encontrado.

Obtenga texto subrayado de cualquier PDF con Python | de Sasha Korovkina | mayo, 2024

ByEquipo de 7 minutos

Una guía paso a paso para obtener texto subrayado como una matriz a partir de archivos PDF.

La teoría

La estrategia

El código

Replicación de estructuras

Superposición de texto

Extracción coordinada

Extracción de texto

Poniendolo todo junto…

By Equipo de 7 minutos

Related Post

xAI lanza grok-voice-think-fast-1.0: encabezando el banco de τ-voice con un 67,3%, superando a Gemini, GPT Realtime y más

Una implementación de codificación en OpenMementos de Microsoft con análisis de estructura de seguimiento, compresión de contexto y preparación de datos de ajuste fino

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

You missed

Un juez encuentra mentiras, expoliación y mala conducta del abogado relacionados con Epstein en una demanda por violación contra el inversionista Leon Black

Biggie y Tesehki van y vienen después del drama de reunión de Baddies

Los científicos revelan la cantidad óptima de sueño para reducir el riesgo de demencia: ScienceAlert

Orihuela refuerza la Policía Local con nuevos vehículos todoterreno y drones avanzados – El Líder