Los investigadores de CMU introducen GO-Browse: un marco basado en gráficos para capacitación de agentes web escalables

Por qué los agentes web luchan con interfaces web dinámicas

Los agentes digitales diseñados para entornos web tienen como objetivo automatizar tareas como navegar páginas, hacer clic en botones o enviar formularios. Estos agentes operan interpretando los datos del navegador y simulando las interacciones del usuario para completar las tareas especificadas. El éxito en este dominio requiere una comprensión precisa del contenido dinámico y la capacidad de proporcionar respuestas adaptables, ya que las interfaces web varían ampliamente y evolucionan continuamente. Si bien los modelos lingüísticos previos a la aparición han mostrado destreza en otras áreas, su desempeño en tareas web basadas en GUI sigue siendo limitado, principalmente debido a las complejidades y la variabilidad de las páginas web.

Desafíos de la recopilación de datos para agentes web a escala

Un desafío importante surge de la comprensión limitada de los agentes de los entornos en los que se espera que funcionen. Los modelos previos a la aparición a menudo vacilan cuando interactúan con interfaces desconocidas o complejas. A diferencia de los conjuntos de datos estáticos, los entornos web del mundo real exigen la toma de decisiones continuas en respuesta a las diferencias de diseño y los flujos de usuarios cambiantes. Esto dificulta que los agentes digitales realicen tareas de manera confiable, como encontrar un producto específico o completar un formulario en línea. Los datos curados por humanos podrían ofrecer orientación, pero recopilar estos datos es intensivo en mano de obra y no puede escalar para cumplir con la diversidad de escenarios web del mundo real.

Revisión de enfoques pasados: Interacción primero vs. Métodos de instrucción primero

Los investigadores han intentado anteriormente varios métodos para recopilar datos para capacitar a estos agentes. Un enfoque, llamado interacción primero, un agente explora sitios web basados ​​en amplias instrucciones y luego etiqueta sus actividades utilizando otro modelo. Si bien esto puede conducir a una exploración más profunda, a menudo resulta en un comportamiento redundante entre las sesiones, lo que limita la diversidad de datos. Otro método, la instrucción primero, genera tareas específicas para que un agente realice en función del contenido de una sola página web. Aunque más enfocadas, estas tareas con frecuencia se anclan solo al contenido visible y pueden no ser factibles, especialmente cuando se basan en elementos alucinados.

Introducción de GO-Browse: exploración web estructurada basada en gráficos

Los investigadores de la Universidad Carnegie Mellon han introducido GO-Browse para abordar estas limitaciones a través de una estrategia de exploración estructurada. En lugar de confiar en la exploración genérica o las indicaciones de tareas estáticas, GO Browse trata la recopilación de datos como un problema de transversal gráfico. Construye iterativamente un gráfico de URL visitadas, utilizando esta estructura para explorar páginas nuevas y nuevas. Esto permite al agente reiniciar a páginas conocidas y ramificarse, reduciendo la redundancia al tiempo que aumenta la variedad de datos. Cada fase de exploración propone y verifica las tareas en una página seleccionada, asegurando que solo las tareas factibles generen datos de capacitación.

Cómo funciona GO-Browse: Arquitectura modular para exploración y validación

Go-Browse opera a través de múltiples módulos. El módulo Navexplorer se centra en proponer tareas de navegación que se conectan a nuevas páginas. Como agente web, interactúa dinámicamente con cada página para identificar enlaces que conducen a URL inexploradas. Simultáneamente, PageExplorer propone tareas locales para la página actual. El módulo de CHEATIVITYCHECKER prueba estas tareas utilizando agentes de petróleo fuertes y modelos en idioma de visión para determinar si las acciones propuestas se pueden completar con éxito. Las tareas que pasan este paso se etiquetan como factibles y se agregan al conjunto de datos. El módulo de solucionadores luego muestra finalización de tareas adicionales, tanto desde los puntos de partida prefijados como de los estados iniciales, utilizando modelos de menor costo para maximizar la generación de datos al conservar los recursos.

Evaluación de Webarena: GO-Browse supera las líneas de base anteriores

El equipo de investigación evaluó GO-Browse en el punto de referencia de Webarena, que es conocido por su dificultad para evaluar a los agentes basados ​​en GUI. Recolectaron un conjunto de datos que comprende aproximadamente 10,000 trayectorias de tareas exitosas y 17,000 fallidas en 100 URL únicas. Ajustar el modelo QWEN-2.5-7B-Instructo en este conjunto de datos produjo una tasa de éxito de la tarea del 21.7%. Este rendimiento excedió GPT-4O-Mini en un 2,4% y superó el mejor modelo de parámetros sub-10B anteriores, NnetNAV, en un 2.9%. Dada la tasa basal de éxito humano del 78%, esto aún refleja margen de mejora, pero representa un avance significativo.

Por qué la exploración estructurada aumenta la inteligencia del agente web

La investigación identifica un tema clave: los agentes digitales luchan con la comprensión de entornos web complejos. Su método propuesto, GO-Browse, aborda esto mediante la implementación de una estrategia estructurada pero flexible que combina la navegación, la planificación de tareas y la validación de trayectoria. Al tratar la exploración como una tarea de recorrido gráfico y usar verificación modular y muestreo, el enfoque ofrece datos de capacitación escalables y diversos. Estas contribuciones producen una ganancia de rendimiento medible, lo que demuestra la promesa de una exploración estructurada para capacitar a los agentes web más inteligentes.

Tl; dr:

El documento presenta Navegarun marco de exploración estructurado desarrollado por los investigadores de Carnegie Mellon para mejorar la capacitación de agentes digitales basados ​​en la web. A diferencia de los métodos anteriores, GO Browse Frames Exploration como una tarea de transversal gráfica, que permite la recopilación de datos escalable y diversa al navegar e interactuar sistemáticamente con los sitios web. Utilizando componentes modulares como NAVEXPLORER y FEASIBILIDAD CHECKER, genera trayectorias de tareas factibles de alta calidad. Cuando se evalúa en el punto de referencia de Webarena, los modelos con tráfico de GO superaron a los modelos anteriores de 10B anteriores e incluso superaron GPT-4O-Mini, lo que demuestra la efectividad de la recopilación de datos estructurados en la creación de agentes web robustos.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.