Explorando el futuro de los agentes de IA multimodales y el impacto de la interacción con la pantalla

Imagen creada por el autor usando GPT4o

Los anuncios recientes de Anthropic, Microsoft y Apple están cambiando la forma en que pensamos sobre los agentes de IA. Hoy en día, el término “agente de IA” está sobresaturado: casi todos los anuncios relacionados con la IA se refieren a agentes, pero su sofisticación y utilidad varían mucho.

En un extremo del espectro, tenemos agentes avanzados que aprovechan múltiples bucles para la planificación, ejecución de herramientas y evaluación de objetivos, iterando hasta completar una tarea. Estos agentes podrían incluso crear y utilizar recuerdos, aprendiendo de sus errores pasados ​​para impulsar éxitos futuros. Determinar qué hace que un agente sea eficaz es un área muy activa de la investigación en IA. Implica comprender qué atributos hacen que un agente sea exitoso (por ejemplo, cómo debe planificar el agente, cómo debe usar la memoria, cuántas herramientas debe usar, cómo debe realizar un seguimiento de su tarea) y el mejor enfoque para configurar un equipo de agentes. .

En el otro extremo del espectro, encontramos agentes de IA que ejecutan tareas con un solo propósito que requieren poco o ningún razonamiento. Estos agentes suelen estar más centrados en el flujo de trabajo. Por ejemplo, un agente que resume consistentemente un documento y almacena el resultado. Estos agentes suelen ser más fáciles de implementar porque los casos de uso están estrechamente definidos, lo que requiere menos planificación o coordinación entre múltiples herramientas y menos decisiones complejas.

Con los últimos anuncios de Anthropic, Microsoft y Apple, estamos presenciando un cambio de agentes de IA basados ​​en texto a agentes multimodales. Esto abre la posibilidad de darle a un agente instrucciones escritas o verbales y permitirle navegar sin problemas por su teléfono o computadora para completar tareas. Esto tiene un gran potencial para mejorar la accesibilidad en todos los dispositivos, pero también conlleva riesgos importantes. El anuncio de Anthropic sobre el uso de computadoras destaca los riesgos de brindarle a la IA acceso ilimitado a su pantalla y proporciona tácticas de mitigación de riesgos, como ejecutar Claude en una máquina virtual o contenedor dedicado, limitar el acceso a Internet a una lista de dominios permitidos, incluidas las verificaciones humanas en el circuito, y evitando dar al modelo acceso a datos sensibles. Señalan que ningún contenido enviado a la API se utilizará para capacitación.

Soneto Claude 3.5 de Anthropic: dando a la IA el poder de usar computadoras

  • Descripción general: El objetivo del uso de computadoras es brindarle a la IA la capacidad de interactuar con una computadora de la misma manera que lo haría un humano. Idealmente, Claude podría abrir y editar documentos, hacer clic en varias áreas de la página, desplazarse y leer páginas, ejecutar y ejecutar código de línea de comandos, y más. Hoy en día, Claude puede seguir instrucciones de un humano para mover un cursor por la pantalla de la computadora, hacer clic en áreas relevantes de la pantalla y escribir en un teclado virtual. Claude obtuvo un 14,9% en la OSWorld punto de referencia, que es más alto que otros modelos de IA en el mismo punto de referencia, pero aún está significativamente por detrás de los humanos (los humanos suelen obtener una puntuación del 70 al 75%).
  • como funciona: Claude mira las capturas de pantalla enviadas por el usuario y cuenta los píxeles para determinar dónde debe mover el cursor para completar la tarea. Los investigadores señalan que a Claude no se le dio acceso a Internet durante el entrenamiento por razones de seguridad, pero que Claude pudo generalizar desde tareas de entrenamiento como usar una calculadora y un editor de texto hasta tareas más complejas. Incluso volvió a intentar tareas cuando falló. El uso de la computadora incluye tres herramientas definidas por Anthropic: computadora, editor de texto y bash. La herramienta informática se utiliza para la navegación por la pantalla, el editor de texto se utiliza para ver, crear y editar archivos de texto y bash se utiliza para ejecutar comandos de shell bash.
  • Desafíos: A pesar de su rendimiento prometedor, todavía queda un largo camino por recorrer para las habilidades de uso de la computadora de Claude. Hoy en día tiene problemas con el desplazamiento, la confiabilidad general y es vulnerable a inyecciones rápidas.
  • Cómo utilizar: Beta pública disponible a través de la API de Anthropic. El uso de la computadora se puede combinar con el uso habitual de herramientas.

OmniParser y GPT-4V de Microsoft: hacer que las pantallas sean comprensibles y procesables para la IA

  • Descripción general: OmniParser está diseñado para analizar capturas de pantalla de interfaces de usuario y transformarlas en resultados estructurados. Estas salidas se pueden pasar a un modelo como GPT-4V para generar acciones basadas en los elementos de pantalla detectados. OmniParser + GPT-4V obtuvieron calificaciones en una variedad de puntos de referencia que incluyen Arena de agentes de Windows que adapta el punto de referencia OSWorld para crear tareas específicas de Windows. Estas tareas están diseñadas para evaluar la capacidad de los agentes para planificar, comprender la pantalla y utilizar herramientas. OmniParser y GPT-4V obtuvieron una puntuación de ~20 %.
  • Cómo funciona: OmniParser combina múltiples modelos optimizados para comprender las pantallas. Utiliza un modelo de detección de regiones/iconos interactivos optimizado (YOLOv8), un modelo de descripción de iconos ajustado (BIP-2 o florencia2) y un módulo OCR. Estos modelos se utilizan para detectar iconos y texto y generar descripciones antes de enviar esta salida a GPT-4V, que decide cómo usar la salida para interactuar con la pantalla.
  • Desafíos: Hoy en día, cuando OmniParser detecta íconos o texto repetidos y los pasa a GPT-4V, GPT-4V generalmente no logra hacer clic en el ícono correcto. Además, OmniParser está sujeto a la salida de OCR, por lo que si el cuadro delimitador está desactivado, es posible que todo el sistema no pueda hacer clic en el área adecuada para los enlaces en los que se puede hacer clic. También existen desafíos para comprender ciertos íconos, ya que a veces el mismo ícono se usa para describir diferentes conceptos (por ejemplo, tres puntos para cargar versus un elemento de menú).
  • Cómo utilizar: OmniParser está disponible en GitHub & AbrazosCara deberá instalar los requisitos y cargar el modelo desde HuggingFace; a continuación, puede intentar ejecutar los cuadernos de demostración para ver cómo OmniParser descompone las imágenes.

Ferret-UI de Apple: llevando inteligencia multimodal a las interfaces de usuario móviles

  • Descripción general: Ferret de Apple (Referir y conectar cualquier cosa en cualquier lugar con cualquier granularidad) existe desde 2023, pero recientemente Apple lanzó Ferret-UI, un MLLM (modelo de lenguaje grande multimodal) que puede ejecutar “tareas de referencia, conexión a tierra y razonamiento” en pantallas de interfaz de usuario móviles. . Las tareas de referencia incluyen acciones como clasificación de widgets y reconocimiento de iconos. Las tareas de conexión a tierra incluyen tareas como buscar ícono o buscar texto. Ferret-UI puede comprender las UI y seguir instrucciones para interactuar con la UI.
  • Cómo funciona: Ferret-UI se basa en Ferret y está adaptado para trabajar con imágenes de grano más fino entrenando con «cualquier resolución» para que pueda comprender mejor las IU móviles. Cada imagen se divide en dos subimágenes que generan sus propias características. El LLM utiliza la imagen completa, tanto subimágenes, características regionales e incrustaciones de texto para generar una respuesta.
  • Desafíos: Algunos de los resultados citados en el artículo de Ferret-UI demuestran casos en los que Ferret predice texto cercano en lugar del texto de destino, predice palabras válidas cuando se le presenta una pantalla que tiene palabras mal escritas y, a veces, también clasifica mal los atributos de la interfaz de usuario.
  • Cómo utilizar: Apple puso los datos y el código a disposición en GitHub sólo para uso en investigación. Apple lanzó dos puntos de control Ferret-UI, uno construido sobre Gemma-2b y otro construido sobre Llama-3–8B. Los modelos Ferret-UI están sujetos a las licencias de Gemma y Llama, mientras que el conjunto de datos permite el uso no comercial.

Resumen: tres enfoques para la navegación en pantalla impulsada por IA

En resumen, cada uno de estos sistemas demuestra un enfoque diferente para crear agentes multimodales que puedan interactuar con computadoras o dispositivos móviles en nuestro nombre.

Claude 3.5 Sonnet de Anthropic se centra en la interacción general con la computadora donde Claude cuenta píxeles para navegar adecuadamente por la pantalla. OmniParser de Microsoft aborda desafíos específicos para dividir las interfaces de usuario en resultados estructurados que luego se envían a modelos como GPT-4V para determinar acciones. Ferret-UI de Apple está diseñado para la comprensión de la interfaz de usuario móvil, lo que le permite identificar íconos, texto y widgets al mismo tiempo que ejecuta instrucciones abiertas relacionadas con la interfaz de usuario.

En cada sistema, el El flujo de trabajo generalmente sigue dos fases clave, una para analizar la información visual y otra para razonar sobre cómo interactuar con ella.. Analizar las pantallas con precisión es fundamental para planificar adecuadamente cómo interactuar con la pantalla y asegurarse de que el sistema ejecute las tareas de manera confiable.

En mi opinión, el aspecto más interesante de estos avances es cómo Las capacidades multimodales y los marcos de razonamiento están comenzando a converger.. Si bien estas herramientas ofrecen capacidades prometedorastodavía están muy por detrás del desempeño humano. También hay simportantes preocupaciones sobre la seguridad de la IA que deben abordarse al implementar cualquier sistema agente con acceso a pantalla.

Uno de los mayores beneficios de los sistemas agentes es su potencial para superar las limitaciones cognitivas de los modelos individuales al dividir las tareas en componentes especializados. Estos sistemas se pueden construir de muchas maneras. En algunos casos, lo que al usuario le parece un solo agente puede, detrás de escena, consistir en un equipo de subagentes – cada gestionar distintas responsabilidades como planificación, interacción con la pantalla o gestión de la memoria. Por ejemplo, un agente de razonamiento podría coordinarse con otro agente que se especialice en analizar datos de pantalla, mientras que un agente independiente selecciona recuerdos para mejorar el rendimiento futuro.

Alternativamente, estas capacidades podrían ser combinados dentro de un agente robusto. En esta configuración, el agente podría tener múltiples módulos de planificación interna: uno centrado en planificar las interacciones de la pantalla y otro centrado en gestionar la tarea general. Aún está por verse cuál es el mejor enfoque para estructurar agentes, pero el objetivo sigue siendo el mismo: crear agentes que funcionen de manera confiable en el tiempo, en múltiples modalidades, y se adapten sin problemas a las necesidades del usuario.

Referencias:

¿Interesado en seguir discutiendo o colaborar? Comuníquese con LinkedIn!