(VLMS) son potentes modelos de aprendizaje automático que pueden procesar información visual y textual. Con la reciente lanzamiento de Qwen 3 VL, quiero hacer una inmersión profunda en cómo puede utilizar estos poderosos VLM para procesar documentos.
Tabla de contenido
Por qué necesitas usar VLMS
Para resaltar por qué algunas tareas requieren VLM, quiero comenzar con una tarea de ejemplo, donde necesitamos interpretar el texto y la información visual del texto.
Imagina que miras la imagen a continuación. Las casillas de verificación representan si un documento debe incluirse en un informe o no, y ahora debe determinar qué documentos incluir.
Para un humano, esta es una tarea simple; Obviamente, los documentos 1 y 3 deben incluirse, mientras que el documento 2 debe ser excluido. Sin embargo, si trató de resolver este problema a través de un LLM puro, encontrará problemas.
Para ejecutar un LLM puro, primero necesitaría OCR la imagen, donde la salida de OCR se vería a continuación, si usa el Tesseract de Google, por ejemplo, que extrae el texto Line by Line.
Documento 1 Documento 2 Documento 3 xx
Como ya habrá descubierto, el LLM tendrá problemas para decidir qué documentos incluir, porque es imposible saber a qué documentos pertenecen los XS. Este es solo uno de los muchos escenarios en los que los VLM son extremadamente eficientes para resolver un problema.
El punto principal aquí es que saber qué documentos tienen una X con caja de verificación requiere información visual y textual. Debe conocer el texto y la posición visual del texto en la imagen. Resumen esto en la cita a continuación:
Se requieren VLM cuando el significado del texto depende de su posición visual
Áreas de aplicación
Hay una gran cantidad de áreas a las que puede aplicar VLMS. En esta sección, cubriré algunas áreas diferentes donde los VLM han demostrado ser útiles, y donde también he aplicado con éxito VLMS.
Casos de uso de agente
Los agentes están en el viento hoy en día, y los VLM también juegan un papel en esto. Destacaré dos áreas principales donde los VLM se pueden usar en un contexto agente, aunque naturalmente hay muchas otras áreas similares.
Uso de la computadora
El uso de la computadora es un caso de uso interesante para VLMS. Con el uso de la computadora, me refiero a un VLM que mira un marco desde su computadora y decide qué acción tomar a continuación. Un ejemplo de esto es el operador de Openai. Esto puede, por ejemplo, mirar un marco de este artículo que está leyendo en este momento y desplazándose hacia abajo para leer más de este artículo.
Los VLM son útiles para el uso de la computadora, porque los LLM no son suficientes para decidir qué acciones tomar. Cuando opera en una computadora, a menudo debe interpretar la posición visual de los botones y la información, que, como describí al principio, es una de las principales áreas de uso para VLM.
Depuración
El código de depuración también es un área de aplicación de agente súper útil para VLMS. Imagine que está desarrollando una aplicación web y descubre un error.
Una opción es comenzar a iniciar sesión en la consola, copiar los registros, describir para cursor lo que hizo y solicitar el cursor para solucionarlo. Esto es naturalmente lento, ya que requiere muchos pasos manuales del usuario.
Por lo tanto, otra opción es utilizar VLMS para resolver mejor el problema. Idealmente, usted describe cómo reproducir el problema, un VLM puede entrar en su aplicación, recrear el flujo, ver el problema y, por lo tanto, depurar lo que va mal. Se están construyendo aplicaciones para áreas como esta, aunque la mayoría no ha llegado lejos en el desarrollo de lo que he visto.
Respuesta de preguntas
La utilización de VLM para la respuesta de las preguntas visuales es uno de los enfoques clásicos para usar VLMS. La respuesta a la pregunta es el caso de uso que describí anteriormente en este artículo sobre la determinación de qué casilla de verificación pertenece a qué documentos. Alimenta el VLM con una pregunta del usuario y una imagen (o varias imágenes), para que el VLM procese. El VLM proporcionará una respuesta en formato de texto. Puede ver cómo funciona este proceso en la figura a continuación.
Sin embargo, debe sopesar las compensaciones del uso de VLMS vs LLMS. Naturalmente, cuando una tarea requiere información textual y visual, debe utilizar VLM para obtener un resultado adecuado. Sin embargo, los VLM también suelen ser mucho más caros de ejecutar, ya que necesitan procesar más tokens. Esto se debe a que las imágenes contienen mucha información, lo que conduce a muchos tokens de entrada para procesar.
Además, si el VLM procesa el texto, también necesita imágenes de alta resolución, lo que permite que el VLM interprete los píxeles que inventan letras. Con resoluciones más bajas, el VLM lucha por leer el texto en las imágenes, y recibirá resultados de baja calidad.
Clasificación
Otra área de aplicación interesante para VLMS es la clasificación. Con la clasificación, me refiero a la situación en la que tiene un conjunto predeterminado de categorías y necesito determinar a qué categoría pertenece una imagen.
Puede utilizar VLM para la clasificación, con el mismo enfoque que usar LLM. Cree un mensaje estructurado que contiene toda la información relevante, incluidas las posibles categorías de salida. Además, preferiblemente cubre los diferentes casos de borde, por ejemplo, en escenarios en los que dos categorías son muy probables, y el VLM tiene que decidir entre las dos categorías.
Puede, por ejemplo, tener un aviso como:
def get_prompt (): return “” “## Instrucciones generales que necesita para determinar a qué categoría pertenece un documento determinado. Las categorías disponibles son” legales “,” técnicas “,” financieras “.
También puede utilizar de manera efectiva VLM para la extracción de información, y hay muchas tareas de extracción de información que requieren información visual. Creas un indicador similar al indicador de clasificación que creé anteriormente, y generalmente solicita al VLM que responda en un formato estructurado, como un objeto JSON.
Al realizar la extracción de información, debe considerar cuántos puntos de datos desea extraer. Por ejemplo, si necesita extraer 20 puntos de datos diferentes de un documento, probablemente no desee extraerlos todos a la vez. Esto se debe a que el modelo probablemente tendrá dificultades para extraer con precisión tanta información de una vez.
En cambio, debe considerar dividir la tarea, por ejemplo, extraer 10 puntos de datos, con dos solicitudes diferentes, simplificando la tarea para el modelo. En el otro lado del argumento, a veces encontrará que algunos puntos de datos están relacionados entre sí, lo que significa que deben extraerse en la misma solicitud. Además, enviar varias solicitudes aumenta el costo de inferencia.
Cuando los VLM son problemáticos
Los VLM son modelos increíbles que pueden realizar tareas que eran inimaginables de resolver con IA hace solo unos años. Sin embargo, también tienen sus limitaciones, que cubriré en esta sección.
Costo de ejecutar VLMS
La primera limitación es el costo de ejecutar VLMS, que también he discutido brevemente anteriormente en este artículo. Imágenes de proceso VLMS, que consisten en muchos píxeles. Estos píxeles representan mucha información, que está codificada en tokens que el VLM puede procesar. El problema es que, dado que las imágenes contienen tanta información, debe crear muchos tokens por imagen, lo que nuevamente aumenta el costo de ejecutar VLM.
Además, a menudo necesita imágenes de alta resolución, ya que se requiere que el VLM lea el texto en las imágenes, lo que lleva a aún más tokens para procesar. Por lo tanto, los VLM son costosos de ejecutar, tanto sobre una API, pero en costos de cálculo si decide autohacer el VLM.
No se puede procesar documentos largos
La cantidad de tokens contenidas en las imágenes también limita el número de páginas que un VLM puede procesar a la vez. Los VLM están limitados por sus ventanas de contexto, al igual que los LLM tradicionales. Este es un problema si desea procesar documentos largos que contienen cientos de páginas. Naturalmente, podría dividir el documento en trozos, pero puede encontrar problemas en los que el VLM no tiene acceso a todos los contenidos del documento de una vez.
Por ejemplo, si tiene un documento de 100 páginas, primero puede procesar las páginas 1-50 y luego procesar las páginas 51-100. Sin embargo, si alguna información en la página 53 puede necesitar el contexto de la página 1 (por ejemplo, el título o la fecha del documento), esto conducirá a problemas.
Para aprender a lidiar con este problema, leí el libro de cocina de Qwen 3, donde tienen una página sobre cómo utilizar QWEN 3 para documentos de Ultralong. Me aseguraré de probar esto y discutir qué tan bien funciona en un artículo futuro.
Conclusión
En este artículo, he discutido los modelos de lenguaje de visión y cómo puede aplicarlos a diferentes áreas problemáticas. Primero describí cómo integrar VLM en sistemas de agente, por ejemplo, como un agente de uso de computadora o para depurar aplicaciones web. Continuando, cubrí áreas como respuesta, clasificación y extracción de información. Por último, también cubrí algunas limitaciones de los VLM, discutiendo el costo computacional de ejecutar VLM y cómo luchan con documentos largos.
👉 Encuéntrame en Socials:
🧑💻 Ponte en contacto
🐦 X / Twitter
✍️ Medium