Screenshot 2024 09 15 At 1.00.35 Am.png

Los agentes de navegación web se basan en la creación de sistemas autónomos capaces de realizar tareas como buscar, comprar y recuperar información de Internet. Estos agentes utilizan modelos de lenguaje avanzados para interpretar instrucciones y navegar por entornos digitales, tomando decisiones para ejecutar tareas que normalmente requieren intervención humana. A pesar de los avances significativos en esta área, los agentes aún tienen dificultades para realizar tareas complejas y de largo plazo que implican una secuencia de acciones interdependientes. Estas tareas exigen un nivel de adaptabilidad y aprendizaje que los sistemas actuales aún no han podido lograr de manera efectiva.

Uno de los principales desafíos que presenta el desarrollo de estos agentes es su incapacidad para aprender de tareas anteriores. Si bien pueden desempeñarse bien con ejemplos en los que han sido entrenados específicamente, a menudo son ineficientes cuando enfrentan tareas desconocidas. Los agentes operan de manera aislada, resuelven cada tarea individualmente sin reutilizar experiencias pasadas para fundamentar decisiones futuras. Esta limitación reduce su eficiencia y adaptabilidad, en particular en entornos que requieren que manejen múltiples tareas en varios dominios.

Tradicionalmente, las herramientas y los métodos para abordar estos problemas se han basado en ejemplos de entrenamiento fijos o en el aprendizaje en contexto. Estos métodos permiten a los agentes desempeñarse bien en secuencias de acciones predefinidas, pero no son suficientes cuando se enfrentan a situaciones o tareas nuevas que difieren de sus datos de entrenamiento. Por ejemplo, los agentes entrenados en tareas de compra específicas pueden fallar cuando se les pide que naveguen por un nuevo sitio web o completen una tarea diferente, como reservar un vuelo o recuperar información de las redes sociales. La rigidez de estos enfoques limita la capacidad de generalización de los agentes en diversas tareas y entornos.

Un equipo de investigación de la Universidad Carnegie Mellon y el Instituto Tecnológico de Massachusetts (MIT) ha presentado un nuevo método llamado Agent Workflow Memory (AWM) para abordar estos desafíos. AWM ayuda a los agentes a aprender flujos de trabajo de tareas reutilizables a partir de sus experiencias pasadas, que pueden aplicar a tareas futuras. Este método permite a los agentes generar y almacenar flujos de trabajo (secuencias comunes de acciones) a partir de tareas resueltas anteriormente, lo que hace posible reutilizarlas en diferentes contextos. AWM se puede aplicar en entornos en línea y fuera de línea, donde los flujos de trabajo se entrenan previamente o se inducen en tiempo real a partir de consultas de prueba, lo que ofrece una solución versátil para tareas de navegación web.

En detalle, AWM funciona analizando las experiencias pasadas del agente y extrayendo flujos de trabajo de las tareas finalizadas con éxito. Estos flujos de trabajo consisten en rutinas orientadas a objetivos que se almacenan en la memoria del agente para su uso futuro. Por ejemplo, un agente puede aprender un flujo de trabajo básico para buscar un lugar por su nombre en un mapa. Luego, puede basarse en esto y aprender flujos de trabajo más complejos, como recuperar el código postal de la ubicación. Este enfoque basado en la memoria permite al agente adaptarse a tareas cada vez más complejas aprovechando flujos de trabajo aprendidos previamente para informar acciones futuras.

En cuanto al rendimiento, AWM se probó en dos pruebas comparativas importantes, Mind2Web y WebArena, que consisten en más de 1000 tareas que abarcan más de 200 dominios, incluidos viajes, compras y redes sociales. AWM mejoró significativamente el rendimiento de referencia. En la prueba comparativa Mind2Web, la tasa de éxito de las tareas aumentó un 24,6%, mientras que en WebArena, la tasa de éxito relativa mejoró un 51,1%. Además, AWM redujo la cantidad de pasos necesarios para completar las tareas en WebArena, logrando una mejora de hasta 22,5 puntos con respecto a los métodos tradicionales después de procesar solo decenas de ejemplos. Estos resultados demuestran la capacidad de AWM para mejorar la eficiencia y la adaptabilidad de los agentes en diversas tareas digitales.

Los investigadores también descubrieron que AWM mejoraba la generalización en tareas, sitios web y dominios. En evaluaciones entre tareas y dominios, AWM superó a otros métodos de referencia en 8,9 a 14,0 puntos porcentuales absolutos. Esta capacidad de generalización es particularmente notable, ya que demuestra que AWM puede adaptarse a tareas que difieren significativamente de aquellas en las que se entrenó originalmente al agente. Por ejemplo, un agente entrenado en tareas que involucran sitios web de compras podría generalizar de manera efectiva a otros dominios, como redes sociales o viajes, sin necesidad de datos de entrenamiento adicionales específicos del dominio.

En conclusión, la introducción de la memoria de flujo de trabajo del agente ofrece una solución prometedora a las limitaciones de los agentes de navegación web existentes. Al permitir que los agentes aprendan y reutilicen flujos de trabajo de experiencias anteriores, AWM mejora la eficiencia y la adaptabilidad de las tareas, lo que hace que estos sistemas sean más versátiles para gestionar tareas complejas y de largo plazo. Los resultados de las pruebas en Mind2Web y WebArena muestran claramente el potencial del método para revolucionar la navegación web, permitiendo a los agentes gestionar una gama más amplia de tareas con un rendimiento mejorado y menos pasos. Este enfoque marca un avance significativo en el desarrollo de agentes digitales más inteligentes y flexibles capaces de generalizarse en diversas tareas y dominios.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.