Uso de modelos de lenguaje de visión para procesar millones de documentos

(VLMS) son potentes modelos de aprendizaje automático que pueden procesar información visual y textual. Con la reciente lanzamiento de Qwen 3 VL, quiero hacer una inmersión profunda en cómo puede utilizar estos poderosos VLM para procesar documentos.

Tabla de contenido

Por qué necesitas usar VLMS

Para resaltar por qué algunas tareas requieren VLM, quiero comenzar con una tarea de ejemplo, donde necesitamos interpretar el texto y la información visual del texto.

Imagina que miras la imagen a continuación. Las casillas de verificación representan si un documento debe incluirse en un informe o no, y ahora debe determinar qué documentos incluir.

Esta figura destaca un problema adecuado para los VLM. Tiene una imagen que contiene texto sobre documentos, junto con casillas de verificación. Ahora debe determinar qué documentos se han marcado las casillas de verificación. Esto es difícil de resolver con LLMS, porque primero debe aplicar OCR a la imagen. El texto luego pierde su posición visual, que se requiere para resolver correctamente la tarea. Con VLMS, puede leer fácilmente el texto en el documento y utilizar su posición visual (si el texto está por encima de una casilla de verificación revisada o no), y resolver con éxito la tarea. Imagen del autor.

Para un humano, esta es una tarea simple; Obviamente, los documentos 1 y 3 deben incluirse, mientras que el documento 2 debe ser excluido. Sin embargo, si trató de resolver este problema a través de un LLM puro, encontrará problemas.

Para ejecutar un LLM puro, primero necesitaría OCR la imagen, donde la salida de OCR se vería a continuación, si usa el Tesseract de Google, por ejemplo, que extrae el texto Line by Line.

Documento 1 Documento 2 Documento 3 xx

Como ya habrá descubierto, el LLM tendrá problemas para decidir qué documentos incluir, porque es imposible saber a qué documentos pertenecen los XS. Este es solo uno de los muchos escenarios en los que los VLM son extremadamente eficientes para resolver un problema.

El punto principal aquí es que saber qué documentos tienen una X con caja de verificación requiere información visual y textual. Debe conocer el texto y la posición visual del texto en la imagen. Resumen esto en la cita a continuación:

Se requieren VLM cuando el significado del texto depende de su posición visual

Áreas de aplicación

Hay una gran cantidad de áreas a las que puede aplicar VLMS. En esta sección, cubriré algunas áreas diferentes donde los VLM han demostrado ser útiles, y donde también he aplicado con éxito VLMS.

Casos de uso de agente

Los agentes están en el viento hoy en día, y los VLM también juegan un papel en esto. Destacaré dos áreas principales donde los VLM se pueden usar en un contexto agente, aunque naturalmente hay muchas otras áreas similares.

Uso de la computadora

El uso de la computadora es un caso de uso interesante para VLMS. Con el uso de la computadora, me refiero a un VLM que mira un marco desde su computadora y decide qué acción tomar a continuación. Un ejemplo de esto es el operador de Openai. Esto puede, por ejemplo, mirar un marco de este artículo que está leyendo en este momento y desplazándose hacia abajo para leer más de este artículo.

Los VLM son útiles para el uso de la computadora, porque los LLM no son suficientes para decidir qué acciones tomar. Cuando opera en una computadora, a menudo debe interpretar la posición visual de los botones y la información, que, como describí al principio, es una de las principales áreas de uso para VLM.

Depuración

El código de depuración también es un área de aplicación de agente súper útil para VLMS. Imagine que está desarrollando una aplicación web y descubre un error.

Una opción es comenzar a iniciar sesión en la consola, copiar los registros, describir para cursor lo que hizo y solicitar el cursor para solucionarlo. Esto es naturalmente lento, ya que requiere muchos pasos manuales del usuario.

Por lo tanto, otra opción es utilizar VLMS para resolver mejor el problema. Idealmente, usted describe cómo reproducir el problema, un VLM puede entrar en su aplicación, recrear el flujo, ver el problema y, por lo tanto, depurar lo que va mal. Se están construyendo aplicaciones para áreas como esta, aunque la mayoría no ha llegado lejos en el desarrollo de lo que he visto.

Respuesta de preguntas

La utilización de VLM para la respuesta de las preguntas visuales es uno de los enfoques clásicos para usar VLMS. La respuesta a la pregunta es el caso de uso que describí anteriormente en este artículo sobre la determinación de qué casilla de verificación pertenece a qué documentos. Alimenta el VLM con una pregunta del usuario y una imagen (o varias imágenes), para que el VLM procese. El VLM proporcionará una respuesta en formato de texto. Puede ver cómo funciona este proceso en la figura a continuación.

Esta figura destaca una tarea de respuesta a la pregunta donde he utilizado un VLM para resolver el problema. Se alimenta en la imagen que contiene el problema y la pregunta que contiene la tarea de resolver. El VLM luego procesa esta información y genera la información esperada. Imagen del autor,

Sin embargo, debe sopesar las compensaciones del uso de VLMS vs LLMS. Naturalmente, cuando una tarea requiere información textual y visual, debe utilizar VLM para obtener un resultado adecuado. Sin embargo, los VLM también suelen ser mucho más caros de ejecutar, ya que necesitan procesar más tokens. Esto se debe a que las imágenes contienen mucha información, lo que conduce a muchos tokens de entrada para procesar.

Además, si el VLM procesa el texto, también necesita imágenes de alta resolución, lo que permite que el VLM interprete los píxeles que inventan letras. Con resoluciones más bajas, el VLM lucha por leer el texto en las imágenes, y recibirá resultados de baja calidad.

Clasificación

Esta figura cubre cómo puede aplicar VLM a tareas de clasificación. Alimenta el VLM con una imagen de un documento y una pregunta para clasificar el documento en uno de un conjunto de categorías predefinido. Estas categorías deben incluirse en la pregunta, pero no se incluyen en la cifra debido a las limitaciones de espacio. El VLM luego genera la etiqueta de clasificación predicha. Imagen del autor.

Otra área de aplicación interesante para VLMS es la clasificación. Con la clasificación, me refiero a la situación en la que tiene un conjunto predeterminado de categorías y necesito determinar a qué categoría pertenece una imagen.

Puede utilizar VLM para la clasificación, con el mismo enfoque que usar LLM. Cree un mensaje estructurado que contiene toda la información relevante, incluidas las posibles categorías de salida. Además, preferiblemente cubre los diferentes casos de borde, por ejemplo, en escenarios en los que dos categorías son muy probables, y el VLM tiene que decidir entre las dos categorías.

Puede, por ejemplo, tener un aviso como:

def get_prompt (): return “” “## Instrucciones generales que necesita para determinar a qué categoría pertenece un documento determinado. Las categorías disponibles son” legales “,” técnicas “,” financieras “.

También puede utilizar de manera efectiva VLM para la extracción de información, y hay muchas tareas de extracción de información que requieren información visual. Creas un indicador similar al indicador de clasificación que creé anteriormente, y generalmente solicita al VLM que responda en un formato estructurado, como un objeto JSON.

Al realizar la extracción de información, debe considerar cuántos puntos de datos desea extraer. Por ejemplo, si necesita extraer 20 puntos de datos diferentes de un documento, probablemente no desee extraerlos todos a la vez. Esto se debe a que el modelo probablemente tendrá dificultades para extraer con precisión tanta información de una vez.

En cambio, debe considerar dividir la tarea, por ejemplo, extraer 10 puntos de datos, con dos solicitudes diferentes, simplificando la tarea para el modelo. En el otro lado del argumento, a veces encontrará que algunos puntos de datos están relacionados entre sí, lo que significa que deben extraerse en la misma solicitud. Además, enviar varias solicitudes aumenta el costo de inferencia.

Esta figura destaca cómo puede utilizar VLM para realizar la extracción de información. Nuevamente alimenta el VLM la imagen del documento y también solicita al VLM que extraiga puntos de datos específicos. En esta figura, solicito al VLM que extraiga la fecha del documento, la ubicación mencionada en el documento y el tipo de documento. El VLM luego analiza el mensaje y la imagen del documento, y genera un objeto JSON que contiene la información solicitada. Imagen del autor.

Cuando los VLM son problemáticos

Los VLM son modelos increíbles que pueden realizar tareas que eran inimaginables de resolver con IA hace solo unos años. Sin embargo, también tienen sus limitaciones, que cubriré en esta sección.

Costo de ejecutar VLMS

La primera limitación es el costo de ejecutar VLMS, que también he discutido brevemente anteriormente en este artículo. Imágenes de proceso VLMS, que consisten en muchos píxeles. Estos píxeles representan mucha información, que está codificada en tokens que el VLM puede procesar. El problema es que, dado que las imágenes contienen tanta información, debe crear muchos tokens por imagen, lo que nuevamente aumenta el costo de ejecutar VLM.

Además, a menudo necesita imágenes de alta resolución, ya que se requiere que el VLM lea el texto en las imágenes, lo que lleva a aún más tokens para procesar. Por lo tanto, los VLM son costosos de ejecutar, tanto sobre una API, pero en costos de cálculo si decide autohacer el VLM.

No se puede procesar documentos largos

La cantidad de tokens contenidas en las imágenes también limita el número de páginas que un VLM puede procesar a la vez. Los VLM están limitados por sus ventanas de contexto, al igual que los LLM tradicionales. Este es un problema si desea procesar documentos largos que contienen cientos de páginas. Naturalmente, podría dividir el documento en trozos, pero puede encontrar problemas en los que el VLM no tiene acceso a todos los contenidos del documento de una vez.

Por ejemplo, si tiene un documento de 100 páginas, primero puede procesar las páginas 1-50 y luego procesar las páginas 51-100. Sin embargo, si alguna información en la página 53 puede necesitar el contexto de la página 1 (por ejemplo, el título o la fecha del documento), esto conducirá a problemas.

Para aprender a lidiar con este problema, leí el libro de cocina de Qwen 3, donde tienen una página sobre cómo utilizar QWEN 3 para documentos de Ultralong. Me aseguraré de probar esto y discutir qué tan bien funciona en un artículo futuro.

Conclusión

En este artículo, he discutido los modelos de lenguaje de visión y cómo puede aplicarlos a diferentes áreas problemáticas. Primero describí cómo integrar VLM en sistemas de agente, por ejemplo, como un agente de uso de computadora o para depurar aplicaciones web. Continuando, cubrí áreas como respuesta, clasificación y extracción de información. Por último, también cubrí algunas limitaciones de los VLM, discutiendo el costo computacional de ejecutar VLM y cómo luchan con documentos largos.

👉 Encuéntrame en Socials:

🧑‍💻 Ponte en contacto

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium