Este documento de IA presenta un plan y acto: un marco modular para la planificación de horizonte largo en agentes de idiomas basados en la web

Los modelos de idiomas grandes están impulsando una nueva ola de agentes digitales para manejar tareas sofisticadas basadas en la web. Se espera que estos agentes interpreten las instrucciones del usuario, naveguen las interfaces y ejecuten comandos complejos en entornos en constante cambio. La dificultad no radica en comprender el lenguaje sino en traducir esa comprensión en acciones precisas y secuenciadas mientras se adapta a contextos dinámicos. El éxito de las tareas de Horizon Long, como reservar viajes o recuperar datos web específicos, depende de administrar una secuencia de pasos que evoluciona con cada acción. A pesar del progreso importante en las capacidades del lenguaje, crear agentes que puedan planificar y adaptarse de manera efectiva en cada paso sigue siendo un problema sin resolver.

Componer objetivos generales en pasos procesables es un problema importante en la construcción de tales agentes. Cuando un usuario solicita “siga el principal contribuyente de este proyecto GitHub”, el agente debe interpretar el comando y determinar cómo navegar a la sección del contribuyente, identificar a la persona relevante e iniciar la siguiente acción. Esta tarea se vuelve aún más compleja en entornos dinámicos donde el contenido puede cambiar entre ejecuciones. Sin una estrategia de planificación y actualización clara, los agentes pueden tomar decisiones inconsistentes o fallar por completo. La escasez de datos de entrenamiento que muestra cómo planificar y ejecutar tareas largas correctamente agrega otra capa de dificultad.

Anteriormente, los investigadores intentaron abordar estos problemas con modelos que se basaban en estrategias de un solo agente o el aprendizaje de refuerzo aplicado para guiar las acciones. Los sistemas de un solo agente como React intentaron fusionar el razonamiento y la ejecución, pero a menudo vacilaban ya que el modelo estaba abrumado por pensar y actuar a la vez. Los enfoques de aprendizaje de refuerzo se mostraron prometedores, pero demostraron ser inestables y altamente sensibles a la sintonización específica del medio ambiente. La recopilación de datos de capacitación para estos métodos requirió una interacción extensa con entornos, lo que lo convierte en lento y poco práctico a la escala. Estos métodos también lucharon para mantener la consistencia del rendimiento cuando las tareas cambiaron el proceso medio.

Investigadores de UC Berkeley, la Universidad de Tokio e ICSI introdujeron un nuevo sistema de planos y actos. Empresas como Apple, Nvidia, Microsoft e Intel apoyaron el trabajo. Este marco divide la planificación y ejecución de la tarea en dos módulos: un planificador y un albacea. El planificador tiene la tarea de crear un plan estructurado basado en la solicitud del usuario, esencialmente describe qué pasos deben tomarse. El albacea luego traduce cada paso en acciones específicas del entorno. Al separar estas responsabilidades, el sistema permite al planificador centrarse en la estrategia mientras el ejecutor maneja la ejecución, mejorando la confiabilidad de ambos componentes. Este diseño modular marca un cambio significativo de los enfoques anteriores.

La metodología detrás de Plan-and-Act se detalla y se centra en gran medida en el entrenamiento escalable. Dado que los datos de planificación anotados por humanos son limitados, los investigadores introdujeron una tubería de generación de datos sintéticos. Comenzaron recolectando trayectorias de acción de agentes simulados: secuencias de clics, entradas y respuestas. Los modelos de idiomas grandes luego analizaron estas trayectorias para reconstruir los planes de alto nivel basados en los resultados reales. Por ejemplo, un plan podría especificar identificar el contribuyente superior, mientras que las acciones vinculadas a él incluyen hacer clic en la pestaña “Contribuyentes” y analizar el HTML resultante. El equipo amplió su conjunto de datos con 10,000 planes sintéticos adicionales y luego generó 5,000 planes más específicos basados en el análisis de fallas. Este método de entrenamiento sintético ahorró tiempo y produjo datos de alta calidad que reflejaban las necesidades de ejecución reales.

En las pruebas, Plan-and-Act alcanzó una tasa de éxito de la tarea de 53.94% en el punto de referencia Webarena-Lite, superando el mejor resultado anterior de 49.1% de WEBRL. Sin ningún planificador, un ejecutor base solo logró 9.85%. Agregar un planificador no financiero que aumentó el rendimiento al 29.63%, mientras que la delicadeza de 10,000 planes sintéticos elevó los resultados de hasta un 44.24%. La incorporación de la replanación dinámica agregó una ganancia final de rendimiento del 10.31%. En todos los experimentos, los datos mostraron que la mayoría de las mejoras de rendimiento provienen de mejorar el planificador en lugar del albacea. Incluso con un albacea base, tener un planificador fuerte condujo a aumentos sustanciales de tasas de éxito, validando la hipótesis de los investigadores de que la separación de la planificación y la ejecución producen mejores resultados de tareas.

En conclusión, este documento destaca cómo identificar la brecha entre la comprensión de los objetivos y la interacción ambiental puede conducir a sistemas de IA más efectivos. Al centrarse en la planificación estructurada y la generación de datos escalables, los investigadores propusieron un método que resuelve un problema específico y demuestra un marco que puede extenderse a aplicaciones más amplias. Plan-and-ACT muestra que la planificación efectiva, no solo la ejecución, es fundamental para el éxito del agente de IA en entornos complejos.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Este documento de IA presenta un plan y acto: un marco modular para la planificación de horizonte largo en agentes de idiomas basados en la web

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

Una implementación de codificación para recuperar IOC de malware oculto con FLARE-FLOSS más allá del análisis de cadenas clásico

You missed

Comienzan las evacuaciones de cruceros por hantavirus después de un brote mortal

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

La prueba de orina reduce las biopsias de próstata innecesarias en casi dos tercios en un ensayo comparativo con la resonancia magnética

Jaque mate en Irán