Salesforce AI Research presenta WALT (agentes web que aprenden herramientas): permite a los agentes de LLM descubrir automáticamente herramientas reutilizables desde cualquier sitio web

Un equipo de investigadores de IA de Salesforce presentó WALT (agentes web que aprenden herramientas), un marco que aplica ingeniería inversa a la funcionalidad latente de un sitio web para convertirla en herramientas invocables reutilizables. Replantea la automatización del navegador en torno a herramientas invocables en lugar de largas cadenas de clics. Luego, los agentes llaman a operaciones como buscar, filtrar, ordenar, publicar_comentario y crear_lista. Esto reduce la dependencia del razonamiento paso a paso del modelo de lenguaje grande y aumenta el determinismo durante la ejecución.

https://arxiv.org/pdf/2510.01524

¿Qué construye WALT?

Los agentes web suelen fallar cuando los diseños cambian o cuando las tareas requieren secuencias largas. WALT apunta a este modo de falla extrayendo la funcionalidad del sitio fuera de línea y luego exponiéndola como herramientas que encapsulan la navegación, la selección, la extracción y los pasos de agente opcionales. Las herramientas contienen contratos en forma de esquemas y ejemplos. En tiempo de ejecución, un agente redacta un programa corto con algunas llamadas a herramientas para completar una tarea. El objetivo del diseño es un mayor éxito con menos pasos y menos dependencia del razonamiento de forma libre.

Pipeline en dos fases

El oleoducto tiene descubrimiento y construcción con validación. En el descubrimiento, WALT explora un sitio web y propone herramientas candidatas que se asignan a objetivos comunes como el descubrimiento, la gestión de contenidos y la comunicación. En la construcción y validación, WALT convierte los seguimientos en scripts deterministas, estabiliza los selectores, intenta la promoción de URL cuando es posible, induce un esquema de entrada y registra una herramienta solo después de pasar las comprobaciones de un extremo a otro. Esto traslada la mayor cantidad de trabajo posible a operaciones de URL y formularios estables y deja una base de agencia para los casos que realmente lo requieren.

https://arxiv.org/pdf/2510.01524

Resultados en VisualWebArena y WebArena

En VisualWebArena, WALT informa una tasa de éxito promedio del 52,9 por ciento con resultados por división del 64,1 por ciento en Clasificados, 53,4 por ciento en Compras y 39,0 por ciento en Reddit. La tabla enumera líneas de base como SGV en 50,2 por ciento y ExaCT en 33,7 por ciento. El desempeño humano es del 88,7 por ciento en promedio.

En WebArena, WALT alcanza un promedio del 50,1 por ciento en GitLab, Map, Shopping, CMS, Reddit y Multi. La tabla muestra a WALT por delante de los métodos anteriores con un margen de nueve puntos sobre la línea base de inducción de mejores habilidades. El desempeño humano es del 78,2 por ciento.

https://arxiv.org/pdf/2510.01524

Eficiencia y ablaciones

Las herramientas reducen el recuento de acciones en un factor cercano a 1,4 en promedio en relación con un agente coincidente sin herramientas. En la división de Clasificados, las ablaciones muestran ganancias consistentes cuando se utilizan herramientas en diferentes redes troncales de agentes. WALT con GPT 5 mini registra un 7 por ciento más de éxito y un 27 por ciento menos de pasos, mientras que una estrategia de demostración humana produce un 66,0 por ciento de éxito. El WALT totalmente autónomo alcanza el 64,1 por ciento con un 5 por ciento menos de pasos que el caso de demostración humana. El análisis DOM multimodal añade una mejora absoluta del 2,6 por ciento. La verificación externa añade un 3,3 por ciento y aumenta los controles. En todos los componentes, WALT registra un 21,3 por ciento menos de pasos que las políticas de referencia.

https://arxiv.org/pdf/2510.01524

Opciones de diseño que imponen el determinismo

WALT prefiere operaciones a nivel de URL cuando el sitio expone parámetros de consulta o rutas para búsqueda y filtrado. Cuando las páginas requieren una base dinámica, el script de la herramienta inserta pasos agentes limitados, como la extracción de contenido o la espera a que se cargue la página. La estabilización del selector y la validación del esquema reducen la deriva cuando los sitios cambian. El método mantiene baja la fracción de operaciones agentes en los conjuntos de herramientas descubiertos y sesga hacia acciones deterministas como navegación, entrada y clic.

Conclusiones clave

Enfoque: WALT descubre y valida funciones nativas del sitio web, luego las expone como herramientas invocables con esquemas de entrada, estabilización de selector y promoción de URL, reduciendo secuencias de pasos frágiles a operaciones deterministas. Resultados: VisualWebArena: tasa de éxito promedio del 52,9 %, con un 64,1 % en Clasificados, un 53,4 % en Compras y un 39,0 % en Reddit, superando varias líneas de base informadas en el documento. Resultados: WebArena: tasa de éxito promedio del 50,1 % en GitLab, Map, Shopping, CMS, Reddit y Multi, lo que muestra ganancias consistentes con respecto a la inducción de habilidades y las líneas de base basadas en búsquedas. Eficiencia y ablaciones: la utilización de herramientas reduce los pasos aproximadamente 1,4 veces, con un 21,3 % menos de acciones en promedio. El análisis DOM multimodal añade un +2,6 % de éxito absoluto y la verificación externa añade un +3,3 %.

WALT es un pivote útil desde agentes de secuencia de pasos hasta herramientas basadas en funcionalidad. El marco realiza ingeniería inversa de la funcionalidad latente del sitio web en herramientas invocables reutilizables a través del descubrimiento, la gestión de contenido y la comunicación. Al promover los seguimientos de la interfaz de usuario en herramientas deterministas con validación de esquemas y operaciones de URL, WALT eleva el éxito del agente web al 52,9 por ciento en VisualWebArena y al 50,1 por ciento en WebArena, al tiempo que reduce las acciones en aproximadamente un 21,3 por ciento. La versión incluye una CLI, Walt Discover, Walt Agent y MCP que sirven para la integración.

Consulte la página de Paper y GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.