JPMorgan AI Research presenta DocLLM: una extensión ligera de los modelos tradicionales de lenguaje grande diseñada para el razonamiento generativo sobre documentos con diseños enriquecidos

Los documentos empresariales como contratos, informes, facturas y recibos vienen con diseños complejos. Estos documentos pueden interpretarse y analizarse automáticamente, lo cual es útil y puede resultar en la creación de soluciones impulsadas por IA. Sin embargo, existen una serie de desafíos, ya que estos documentos pueden tener una rica semántica que se encuentra en la intersección de modalidades textuales y espaciales. Los complejos diseños de los documentos proporcionan pistas visuales cruciales que son necesarias para su interpretación eficiente.

Si bien Document AI (DocAI) ha logrado avances significativos en áreas como la respuesta a preguntas, la categorización y la extracción, las aplicaciones del mundo real continúan enfrentando obstáculos persistentes relacionados con la precisión, la confiabilidad, la comprensión contextual y la generalización a nuevos dominios.

Para abordar estos problemas, un equipo de investigadores de JPMorgan AI Research ha presentado DocLLM, una versión ligera de los modelos de lenguaje grande (LLM) convencionales que tiene en cuenta tanto la semántica textual como el diseño espacial y ha sido creado específicamente para razonar sobre documentos visuales.

DocLLM es inherentemente multimodal ya que representa tanto la semántica del texto como los diseños espaciales. A diferencia de los métodos tradicionales, se ha desarrollado de manera que utiliza coordenadas del cuadro delimitador adquiridas mediante reconocimiento óptico de caracteres (OCR) para agregar información de diseño espacial, eliminando así la necesidad de un codificador visual sofisticado. Esta decisión de diseño reduce los tiempos de procesamiento, aumenta apenas ligeramente el tamaño del modelo y mantiene la arquitectura del decodificador causal.

El equipo ha compartido que para varias tareas de inteligencia de documentos, incluida la comprensión de formularios, la alineación de tablas y la respuesta visual a preguntas, basta con tener una estructura de diseño espacial. Al separar la información espacial de la información textual, el método ha ampliado el mecanismo de autoatención típico de los transformadores para capturar interacciones intermodales.

Los documentos visuales suelen tener secciones de texto fragmentadas, diseños erráticos e información variada. Para abordar esto, el estudio ha sugerido cambiar el objetivo de preentrenamiento durante la fase de preentrenamiento autosupervisada. Ha recomendado relleno para acomodar varias disposiciones de texto y bloques de texto cohesivos. Con este ajuste, el modelo puede manejar de manera más efectiva tipos de datos mixtos, diseños complejos, terminaciones contextuales y texto desalineado.

El conocimiento previamente capacitado de DocLLM se ha perfeccionado en datos de instrucción de muchos conjuntos de datos para adaptarse a diferentes trabajos de inteligencia de documentos. Estas tareas incluyen categorización de documentos, respuesta visual a preguntas, inferencia en lenguaje natural y extracción de información clave.

Los datos de ajuste de instrucciones han cubierto documentos de una sola página y de varias páginas, y se pueden incluir señales de diseño como separadores de campos, títulos y leyendas para que a los lectores les resulte más fácil comprender la estructura lógica de los artículos. Para el modelo Llama2-7B, los cambios realizados por DocLLM han producido mejoras de rendimiento notables, que van del 15% al ​​61%, en cuatro de los cinco conjuntos de datos no publicados anteriormente.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Se ha introducido un LLM típico con una extensión liviana diseñada especialmente para la interpretación visual de documentos.
  1. El estudio tiene como objetivo proporcionar un mecanismo de atención único que pueda distinguir entre información textual y espacial, permitiendo la captura eficiente de la alineación intermodal entre diseño y texto.
  1. Se ha delineado un objetivo previo a la capacitación para abordar las dificultades causadas por los diseños asimétricos en los documentos visuales.
  1. Se ha diseñado un conjunto de datos de ajuste de instrucciones especializado para tareas de inteligencia de documentos visuales que deben seleccionarse para ajustar el modelo de manera efectiva.
  1. Se realizaron pruebas en profundidad que arrojaron información importante sobre cómo se comporta y funciona el modelo sugerido al gestionar documentos visuales.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarriba, Gorjeoy Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.