Los agentes web existentes enfrentan limitaciones que surgen del hecho de que estos agentes a menudo dependen de una única modalidad de entrada y se prueban en entornos controlados, como simuladores web o instantáneas estáticas, que no reflejan con precisión la complejidad y la naturaleza dinámica de las interacciones web del mundo real. . Esto restringe significativamente su aplicabilidad y efectividad en escenarios del mundo real donde se requieren interacciones dinámicas con contenido web. Esto crea una brecha en su utilidad práctica, ya que no pueden navegar e interactuar de manera efectiva con el contenido diverso y en constante evolución que se encuentra en los sitios web reales.
Trabajos anteriores en agentes web se han centrado en la navegación autónoma y la interacción con entornos web. Los desarrollos clave incluyen WebGPT y WebAgent, que aprovechan los modelos GPT-3 y T5 para navegación web basada en texto y extracción de fragmentos HTML. También hay un interés creciente en agentes web multimodales, como WebGUM que combina T5 con Vision Transformers y PIX2ACT que utilizan capturas de pantalla web. Estos esfuerzos contrastan los enfoques anteriores de entorno web simplificado o de modalidad única, avanzando hacia interacciones web más realistas y dinámicas. Al mismo tiempo, grandes modelos multimodales (LMM) como GPT-4V han demostrado una sólida comprensión multimodal, sentando las bases para agentes web más sofisticados.
Investigadores de la Universidad de Zhejiang, Tencent AI Lab y Westlake University han propuesto el desarrollo de WebVoyager, un agente web impulsado por LMM que puede completar las instrucciones del usuario de un extremo a otro interactuando con sitios web del mundo real. Han propuesto un nuevo protocolo de evaluación que aprovecha las sólidas capacidades de comprensión multimodal de GPT-4V e incluye un punto de referencia de tareas del mundo real de 15 sitios web ampliamente utilizados. La interacción del agente con el sitio web de Apple se demuestra paso a paso, mostrando un camino óptimo sin acciones redundantes.
El conjunto de evaluación se construye utilizando una combinación de métodos de autoinstrucción y verificación humana. Las tareas se toman como muestra y se reescriben desde varios sitios web, lo que garantiza una alta calidad y relevancia. Se realiza una validación humana para verificar las tareas generadas y garantizar que las respuestas se puedan encontrar en los sitios web correspondientes. La evaluación humana es la métrica principal, donde los anotadores expertos juzgan el éxito de la tarea en función de la interacción del agente con la web. Curiosamente, utiliza GPT-4V para la evaluación automática, con el objetivo de reducir la dependencia de evaluadores humanos y los costos de los experimentos.
WebVoyager logró una tasa de éxito de tareas del 55,7 %, superando a GPT-4 y su variante de solo texto. El protocolo de evaluación automática que utiliza GPT-4V se alineó estrechamente con el juicio humano y mostró una tasa de acuerdo del 85,3 %. A pesar de su buen desempeño en la mayoría de las tareas del sitio web, WebVoyager encontró desafíos con sitios con mucho texto como Cambridge Dictionary y Wolfram Alpha. La coherencia del agente mejoró con más información, alcanzando una puntuación Kappa de 0,7, igualando los niveles de acuerdo humano y destacando el potencial de GPT-4V para evaluaciones eficientes y a gran escala de agentes web.
En conclusión, WebVoyager es un agente web con tecnología LMM diseñado para la resolución de tareas web de un extremo a otro, con una tasa de éxito de tareas del 55,7 %. Aún así, hay margen de mejora, como lo indica el exhaustivo análisis de errores proporcionado en el documento. Los investigadores aluden que el trabajo futuro debería centrarse en mejores métodos de integración de información visual y textual y en explorar la creación de agentes web multimodales utilizando LMM de código abierto.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.