La mayoría de los marcos de agentes aún ejecutan un bucle predefinido de Motivo, Actuación y Observación, por lo que el agente solo puede usar las herramientas que se inyectan en el mensaje. Esto funciona para tareas pequeñas, pero falla cuando el conjunto de herramientas es grande, cuando la tarea es larga y cuando el agente debe cambiar de estrategia en medio del razonamiento. El equipo de la Universidad Renmin de China y Xiaohongshu propone DeepAgent como un agente de razonamiento profundo de extremo a extremo que mantiene todo esto dentro de un proceso de razonamiento coherente.
Razonamiento unificado con descubrimiento de herramientas bajo demanda
DeepAgent permite que el modelo genere cuatro tipos de acciones directamente en texto, pensamiento interno, búsqueda de herramientas, llamada de herramientas y plegado de memoria. Cuando el agente decide buscar, consulta un índice denso que contiene descripciones de herramientas de grandes registros, por ejemplo, más de 16 000 herramientas RapidAPI y 3912 herramientas ToolHop, y luego recibe en contexto solo las herramientas mejor clasificadas. Esto hace que el acceso a las herramientas sea dinámico, el modelo no depende de una lista de herramientas cargada desde el principio y permanece alineado con los entornos reales donde las herramientas cambian.
Plegado de memoria autónomo para tareas de largo plazo
Largas secuencias de llamadas a herramientas, resultados web y respuestas de código desbordarán el contexto. DeepAgent resuelve esto con un paso de plegado de memoria autónomo. Cuando el modelo emite el token de plegado, un LLM auxiliar comprime el historial completo en tres memorias, la memoria episódica que registra los eventos de la tarea, la memoria de trabajo que registra el subobjetivo actual y los problemas recientes, y la memoria de herramientas que registra los nombres, argumentos y resultados de las herramientas. Estos recuerdos se retroalimentan como texto estructurado, de modo que el agente continúa desde un estado compacto pero rico en información.
ToolPO, Aprendizaje por refuerzo para el uso de herramientas
Los seguimientos supervisados no enseñan un uso sólido de las herramientas, porque las llamadas correctas a las herramientas son solo unos pocos tokens dentro de una larga generación. El equipo de investigación presenta la optimización de políticas de herramientas, ToolPO, para solucionar este problema. ToolPO ejecuta implementaciones en API simuladas de LLM, por lo que la capacitación es estable y económica, luego atribuye recompensa a los tokens de llamada de herramienta exactos, esta es la atribución de ventaja de llamada de herramienta y se entrena con un objetivo de estilo PPO recortado. Así es como el agente aprende no sólo a llamar a las herramientas, sino también a decidir cuándo buscar y cuándo plegar la memoria.
Puntos de referencia, herramientas etiquetadas frente a herramientas de conjunto abierto
El equipo de investigación evalúa cinco puntos de referencia de uso de herramientas generales, ToolBench, API Bank, TMDB, Spotify, ToolHop, y cuatro tareas posteriores, ALFWorld, WebShop, GAIA, HLE. En la configuración de herramientas etiquetadas, donde cada método recibe las herramientas exactas que necesita, DeepAgent 32B RL con una columna vertebral QwQ 32B reporta 69.0 en ToolBench, 75.3 en API Bank, 89.0 en TMDB, 75.4 en Spotify y 51.3 en ToolHop, que es el resultado de nivel 32B más sólido en los 5 conjuntos de datos. Las líneas de base del flujo de trabajo como ReAct y CodeAct pueden coincidir con conjuntos de datos individuales; por ejemplo, ReAct con modelos sólidos es alto en TMDB y Spotify, pero ninguno de ellos se mantiene alto en los 5, por lo que el resumen justo es que DeepAgent es más uniforme, no que otros siempre sean bajos.
En la configuración de recuperación de conjunto abierto, que es la realista, DeepAgent primero debe encontrar herramientas y luego llamarlas. Aquí, DeepAgent 32B RL alcanza 64,0 en ToolBench y 40,6 en ToolHop, mientras que las líneas base de flujo de trabajo más sólidas alcanzan 55,0 en ToolBench y 36,2 en ToolHop, por lo que el agente de extremo a extremo todavía tiene la ventaja. El equipo de investigación también muestra que la recuperación autónoma de herramientas en sí misma mejora los agentes de flujo de trabajo, pero DeepAgent gana más, lo que confirma que la arquitectura y la capacitación se adaptan a grandes conjuntos de herramientas.
Entornos posteriores
En ALFWorld, WebShop, GAIA y HLE, todos bajo un modelo de razonamiento 32B, DeepAgent informa un 91,8 por ciento de éxito en ALFWorld, un 34,4 por ciento de éxito y una puntuación de 56,3 en WebShop, un 53,3 en GAIA y una puntuación más alta que los agentes de flujo de trabajo en HLE. Estas tareas son más largas y ruidosas, por lo que la combinación de plegado de memoria y ToolPO es la fuente probable de la brecha.
Conclusiones clave
DeepAgent mantiene todo el ciclo del agente dentro de un flujo de razonamiento, el modelo puede pensar, buscar herramientas, llamarlas y continuar, por lo que no se limita a un flujo de trabajo fijo de estilo ReAct. Utiliza una recuperación densa de grandes registros de herramientas, más de 16 000 herramientas RapidAPI y alrededor de 3900 herramientas ToolHop, por lo que las herramientas no tienen que estar enumeradas previamente en el mensaje, sino que se descubren a pedido. El módulo de plegado de memoria autónomo comprime largas historias de interacción en memorias episódicas, de trabajo y de herramientas, lo que evita el desbordamiento del contexto y mantiene estable el razonamiento a largo plazo. La optimización de políticas de herramientas, ToolPO, entrena el uso de herramientas de extremo a extremo con API simuladas y atribución de ventajas a nivel de token, de modo que el agente aprende a realizar llamadas correctas a las herramientas, no solo para llegar a la respuesta final. En 5 puntos de referencia de herramientas y 4 tareas posteriores, DeepAgent a escala 32B es más consistente que las líneas base del flujo de trabajo tanto en herramientas etiquetadas como en configuraciones de conjuntos abiertos, especialmente en ToolBench y ToolHop, donde el descubrimiento de herramientas es más importante.
DeepAgent es un paso práctico hacia arquitecturas de agentes que no dependen de indicaciones de herramientas fijas, porque unifica el pensamiento autónomo, la recuperación densa de herramientas en más de 16 000 RapidAPI y más de 3900 herramientas ToolHop, llamadas de herramientas estructuradas y plegado de memoria en un solo bucle. El uso de API simuladas de LLM en ToolPO es una opción de ingeniería, pero resuelve el problema de latencia e inestabilidad que perjudica a los agentes de herramientas anteriores. La evaluación muestra ganancias consistentes de nivel 32B tanto en la herramienta etiquetada como en la configuración de conjunto abierto, no picos aislados. Esta versión hace que los agentes de LLM puedan utilizar grandes espacios de herramientas. En general, DeepAgent confirma que los agentes de herramientas de extremo a extremo con memoria y RL están emergiendo como el patrón predeterminado.
Consulte el repositorio de Paper y GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.