El campo de la Inteligencia Artificial (IA) siempre ha tenido el objetivo de automatizar las operaciones informáticas cotidianas utilizando agentes autónomos. Básicamente, los agentes autónomos basados en la web con capacidad de razonar, planificar y actuar son una forma potencial de automatizar una variedad de operaciones informáticas. Sin embargo, el principal obstáculo para lograr este objetivo es crear agentes que puedan operar computadoras con facilidad, procesar entradas textuales y visuales, comprender comandos complejos del lenguaje natural y llevar a cabo actividades para lograr objetivos predeterminados. La mayoría de los puntos de referencia actualmente existentes en esta área se han concentrado predominantemente en agentes basados en texto.
Para abordar estos desafíos, un equipo de investigadores de la Universidad Carnegie Mellon presentó VisualWebArena, un punto de referencia diseñado y desarrollado para evaluar el desempeño de agentes web multimodales en desafíos realistas y visualmente estimulantes. Este punto de referencia incluye una amplia gama de desafíos complejos basados en la web que evalúan varios aspectos de las capacidades de los agentes multimodales autónomos.
En VisualWebArena, los agentes deben leer con precisión las entradas de texto e imagen, descifrar instrucciones en lenguaje natural y realizar actividades en sitios web para lograr los objetivos definidos por el usuario. Se ha llevado a cabo una evaluación exhaustiva de los agentes autónomos más avanzados basados en modelos de lenguaje grande (LLM), que incluyen muchos modelos multimodales. Se ha descubierto que los agentes LLM de solo texto tienen ciertas limitaciones mediante análisis tanto cuantitativos como cualitativos. También se han revelado las lagunas en las capacidades de los agentes lingüísticos multimodales más avanzados, ofreciendo así información reveladora.
El equipo ha compartido que VisualWebArena consta de 910 actividades realistas en tres entornos en línea diferentes, es decir, Reddit, Compras y Clasificados. Si bien los entornos Shopping y Reddit proceden de WebArena, el entorno Classifieds es una nueva incorporación a los datos del mundo real. A diferencia de WebArena, que no tiene esta necesidad visual, todos los desafíos que se ofrecen en VisualWebArena se destacan por estar anclados visualmente y requerir una comprensión profunda del contenido para una resolución efectiva. Dado que se utilizan imágenes como entrada, alrededor del 25,2% de las tareas requieren comprender el entrelazado.
El estudio ha comparado exhaustivamente los modelos de lenguaje grande y los modelos de visión-lenguaje (VLM) de última generación en términos de su autonomía. Los resultados han demostrado que los VLM potentes superan a los LLM basados en texto en tareas de VisualWebArena. Los agentes VLM de mayor rendimiento han demostrado alcanzar una tasa de éxito del 16,4%, que es significativamente menor que el desempeño humano del 88,7%.
También se ha encontrado una discrepancia importante entre los agentes VLM de código abierto y los basados en API, lo que destaca la necesidad de métricas de evaluación exhaustivas. También se ha sugerido un agente VLM único, que se inspira en la estrategia de activación del Conjunto de marcas. Este nuevo enfoque ha demostrado importantes beneficios de rendimiento, especialmente en páginas web gráficamente complejas, al optimizar el espacio de acción. Al abordar las deficiencias de los agentes LLM, este agente VLM ha ofrecido una posible forma de mejorar las capacidades de los agentes autónomos en contextos web visualmente complejos.
En conclusión, VisualWebArena es una solución sorprendente que proporciona un marco para evaluar agentes lingüísticos autónomos multimodales, además de ofrecer conocimientos que pueden aplicarse a la creación de agentes autónomos más potentes para tareas en línea.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.