Investigadores de UC Berkeley proponen DocETL: un sistema declarativo que optimiza tareas complejas de procesamiento de documentos mediante LLM

Los modelos de lenguajes grandes (LLM) han ganado una atención significativa en la gestión de datos, con aplicaciones que abarcan la integración de datos, el ajuste de bases de datos, la optimización de consultas y la limpieza de datos. Sin embargo, el análisis de datos no estructurados, especialmente documentos complejos, sigue siendo un desafío en el procesamiento de datos. Los marcos declarativos recientes diseñados para el procesamiento de datos no estructurados basados en LLM se centran más en reducir costos que en mejorar la precisión. Esto crea problemas para tareas y datos complejos, donde los resultados de LLM a menudo carecen de precisión en las operaciones definidas por el usuario, incluso con indicaciones refinadas. Por ejemplo, los LLM pueden tener dificultades para identificar cada aparición de cláusulas específicas, como fuerza mayor o indemnización, en documentos legales extensos, lo que hace necesario descomponer tanto los datos como las tareas.

Para la Identificación de Mala Conducta Policial (PMI), los periodistas del Programa de Reportajes de Investigación de Berkeley quieren analizar un gran corpus de registros policiales obtenidos a través de solicitudes de registros para descubrir patrones de mala conducta de los agentes y posibles violaciones procesales. PMI plantea el desafío de analizar conjuntos de documentos complejos, como registros policiales, para identificar patrones de mala conducta de los agentes. Esta tarea implica procesar documentos heterogéneos para extraer y resumir información clave, compilar datos en múltiples documentos y crear resúmenes de conducta detallados. Los enfoques actuales manejan estas tareas como operaciones de mapas de un solo paso, con una llamada de LLM por documento. Sin embargo, este método a menudo carece de precisión debido a problemas como que la longitud del documento supera los límites del contexto de LLM, faltan detalles críticos o incluye información irrelevante.

Investigadores de UC Berkeley y la Universidad de Columbia han propuesto DocETL, un sistema innovador diseñado para optimizar procesos de procesamiento de documentos complejos y al mismo tiempo abordar las limitaciones de los LLM. Este método proporciona una interfaz declarativa para que los usuarios definan canalizaciones de procesamiento y utiliza un marco basado en agentes para la optimización automática. Las características clave de DocETL incluyen la reescritura lógica de procesos adaptados a tareas basadas en LLM, un mecanismo de evaluación de planes guiado por agentes que crea y gestiona mensajes de validación específicos de tareas y un algoritmo de optimización que identifica de manera eficiente planes prometedores dentro de las limitaciones de tiempo basadas en LLM. Además, DocETL muestra importantes mejoras en la calidad de los resultados en varias tareas de análisis de documentos no estructurados.

DocETL se evalúa en tareas de PMI utilizando un conjunto de datos de 227 documentos de los departamentos de policía de California. El conjunto de datos presentó desafíos importantes, incluidos documentos extensos con un promedio de 12 500 tokens, y algunos excedieron el límite de la ventana de contexto de 128 000 tokens. La tarea implica generar resúmenes detallados de mala conducta para cada oficial, incluidos nombres, tipos de mala conducta y resúmenes completos. El proceso inicial en DocETL consiste en una operación de mapa para extraer a los oficiales que exhiben mala conducta, una operación de desmontaje para aplanar la lista y una operación reducida para resumir la mala conducta en todos los documentos. El sistema evaluó múltiples variantes de canalización utilizando GPT-4o-mini, lo que demuestra la capacidad de DocETL para optimizar tareas complejas de procesamiento de documentos. Los oleoductos son DocETL._SDocETL_ty DocETL_oh.

La evaluación humana se lleva a cabo en un subconjunto de datos utilizando GPT-4o-mini como juez en 1500 resultados para validar los juicios del LLM, lo que revela un alto acuerdo (92-97%) entre el juez del LLM y el evaluador humano. Los resultados muestran que DocETL𝑂 es 1,34 veces más preciso que la línea base. DocETL_S y DocETL_t Los oleoductos se comportaron de manera similar, con DDocETL._S a menudo omitiendo fechas y lugares. La evaluación destaca la complejidad de evaluar los procesos basados en LLM y la importancia de la optimización y evaluación de tareas específicas en el análisis de documentos impulsado por LLM. Los agentes de validación personalizados de DocETL son cruciales para encontrar las fortalezas relativas de cada plan y resaltar la efectividad del sistema en el manejo de tareas complejas de procesamiento de documentos.

En conclusión, los investigadores introdujeron DocETL, un sistema declarativo para optimizar tareas complejas de procesamiento de documentos mediante LLM, abordando limitaciones críticas en los marcos de procesamiento de datos existentes basados en LLM. Utiliza directivas de reescritura innovadoras, un marco basado en agentes para la reescritura y evaluación de planes y una estrategia de optimización oportunista para abordar los desafíos específicos del procesamiento de documentos complejos. Además, DocETL puede producir resultados con una calidad entre 1,34 y 4,6 veces superior a la de las líneas base diseñadas manualmente. A medida que la tecnología LLM continúa evolucionando y surgen nuevos desafíos en el procesamiento de documentos, la arquitectura flexible de DocETL ofrece una plataforma sólida para futuras investigaciones y aplicaciones en este campo de rápido crecimiento.

Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Investigadores de UC Berkeley proponen DocETL: un sistema declarativo que optimiza tareas complejas de procesamiento de documentos mediante LLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Agentic RAG: Deje que el agente busque

Investigadores de Stanford presentan TRACE: un sistema de capacitación de agentes dirigido a capacidades que convierte las fallas recurrentes de los agentes en un entorno de RL sintético

Prime Intellect lanza Verifiers v1: conjuntos de tareas, arneses y tiempos de ejecución componibles para capacitación y evaluaciones de Agentic RL

You missed

La demanda del IRS de Trump dictaminó que era una farsa y el juez ordena sanciones contra sus abogados

Familia multimillonaria estadounidense denuncia “persecución política” por parte de la administración Trump tras la detención de su hijo en Ibiza

Agentic RAG: Deje que el agente busque

Los científicos encuentran el primer azúcar verdadero jamás detectado en el espacio interestelar: ScienceAlert