A medida que la IA continúa creciendo e impactando todos los aspectos de nuestras vidas, se realizan investigaciones para hacerla más útil y conveniente. Hoy en día, la IA está encontrando utilidad en todas las dimensiones de la vida diaria. Se han realizado extensas investigaciones en diversos campos. En consecuencia, los investigadores de Reelaborado han formulado Tarsier, una biblioteca Python de código abierto para facilitar la interacción web con modelos de lenguaje multimodales (LLM) como GPT-4.
Tarsier actúa como un puente, lo que mejora las capacidades de estos modelos al etiquetar visualmente elementos interactuables en una página web y permitir la interacción entre usuarios y máquinas.
Tarsier simplifica el complejo proceso de interacción web para los LLM. Se logra etiquetando elementos visualmente utilizando corchetes e identificadores únicos, como ID. Estos elementos, que incluyen botones, enlaces y campos de entrada visibles en la página, establecen un mapeo crucial para que GPT-4 realice acciones. En otras palabras, Tarsier actúa como traductor, haciendo que la web sea comprensible para los modelos lingüísticos.
Una característica de Tarsier es su capacidad para representar la página visualmente. Esta característica se vuelve importante a medida que los modelos de lenguaje de visión existentes enfrentan desafíos. Al ofrecer utilidades de reconocimiento óptico de caracteres (OCR), Tarsier convierte una captura de pantalla de una página en una cadena estructurada en espacios en blanco, lo que garantiza que incluso los LLM no multimodales puedan captar el contenido y el significado de una página web.
Tarsier introduce dos utilidades fundamentales que mejoran significativamente las capacidades de interacción de los modelos de lenguaje. Se trata de etiquetar elementos interactuables y analizar capturas de pantalla en representación de texto OCR.
Tarsier destaca por su capacidad de etiquetar elementos interactuables con un identificador único. Este identificador permite a los modelos de lenguaje (LLM) comprender los elementos con los que pueden trabajar, como hacer clic en botones, seguir enlaces o completar campos de entrada. Este método de etiquetado mejora la comprensión y crea un vínculo claro entre las opciones del LLM y los elementos subyacentes de la página web.
Otra característica revolucionaria de Tarsier es su capacidad para convertir capturas de pantalla en una representación de texto OCR con reconocimiento espacial. Este avance permite la utilización de modelos como GPT-4 o cualquier LLM de solo texto para tareas web, incluso si no hay capacidades visuales. Básicamente, Tarsier amplía los horizontes de las aplicaciones de IA al permitir que los modelos de lenguaje interactúen con la web sin depender de la visión.
Además, Tarsier tiene un conjunto de libros de cocina que muestran cómo usarlo con bibliotecas LLM conocidas como Langchain y LlamaIndex, lo que facilita el proceso de incorporación. Estos libros de cocina permiten a las personas experimentar las características de Tarsier directamente al ofrecer ejemplos e ideas útiles.
En conclusión, Tarsier es una herramienta necesaria para mejorar las capacidades de los LLM. Brinda a los LLM las herramientas para explorar y comprender las complejidades de la web al ofrecer una descripción organizada de los elementos en línea. Con sus herramientas de OCR, esta capacidad se extiende aún más a modelos de solo texto, eliminando obstáculos y promoviendo un entorno de IA más diverso y adaptable.
Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.