Cómo esta investigación sobre la memoria agente unifica la memoria a corto y largo plazo para los agentes de LLM

¿Cómo se diseña un agente LLM que decide por sí mismo qué almacenar en la memoria a largo plazo, qué mantener en el contexto de corto plazo y qué descartar, sin heurísticas ajustadas manualmente ni controladores adicionales? ¿Puede una sola política aprender a gestionar ambos tipos de memoria a través del mismo espacio de acción que la generación de texto?

Investigadores del Grupo Alibaba y la Universidad de Wuhan presentan Agentic Memory, o AgeMem, un marco que permite a los agentes de modelos de lenguaje grandes aprender a gestionar la memoria tanto a largo como a corto plazo como parte de una única política. En lugar de depender de reglas escritas a mano o controladores externos, el agente decide cuándo almacenar, recuperar, resumir y olvidar, utilizando herramientas de memoria integradas en el espacio de acción del modelo.

Por qué los agentes actuales de LLM luchan con la memoria

La mayoría de los marcos de agentes tratan la memoria como dos sistemas débilmente acoplados.

La memoria a largo plazo almacena perfiles de usuario, información de tareas e interacciones previas entre sesiones. La memoria a corto plazo es la ventana de contexto actual, que contiene el diálogo activo y los documentos recuperados.

Los sistemas existentes diseñan estas dos partes de forma aislada. La memoria a largo plazo se maneja a través de almacenes externos, como bases de datos vectoriales, con activadores simples de agregar y recuperar. La memoria a corto plazo se gestiona con recuperación de generación aumentada, ventanas deslizantes o programas de resumen.

Esta separación crea varios problemas.

La memoria a corto y largo plazo se optimiza de forma independiente. Su interacción no está entrenada de punta a punta. Las heurísticas deciden cuándo escribir en la memoria y cuándo resumir. Estas reglas son frágiles y pasan por alto eventos raros pero importantes. Los controladores adicionales o los modelos expertos aumentan el costo y la complejidad del sistema.

AgeMem elimina el controlador externo y integra las operaciones de memoria en la propia política del agente.

La memoria como herramientas en el espacio de acción del agente.

En AgeMem, las operaciones de memoria se exponen como herramientas. En cada paso, el modelo puede emitir tokens de texto normales o una llamada a una herramienta. El marco define 6 herramientas.

Para la memoria a largo plazo:

ADD almacena un nuevo elemento de memoria con contenido y metadatos. ACTUALIZAR modifica una entrada de memoria existente. DELETE elimina elementos obsoletos o de bajo valor.

Para memoria a corto plazo:

RETRIEVE realiza una búsqueda semántica en la memoria a largo plazo e inyecta los elementos recuperados en el contexto actual. RESUMEN comprime tramos del diálogo en resúmenes más cortos. FILTER elimina segmentos de contexto que no son útiles para razonamientos futuros.

El protocolo de interacción tiene un formato estructurado. Cada paso comienza con un bloque donde el modelo razona de forma privada. Luego, el modelo emite un bloque con una lista JSON de invocaciones de herramientas o un bloque con la respuesta del usuario. Por lo tanto, las acciones de la memoria son decisiones de primera clase, no efectos secundarios.

Aprendizaje por refuerzo en tres etapas para la memoria unificada

AgeMem está entrenado con aprendizaje por refuerzo de una manera que combina el comportamiento de la memoria a corto y largo plazo.

El estado en el momento t incluye el contexto conversacional actual, el almacenamiento de memoria a largo plazo y la especificación de la tarea. La política elige un token o una llamada de herramienta como acción. La trayectoria de entrenamiento de cada muestra se divide en 3 etapas:

Etapa 1, construcción de la memoria a largo plazo: el agente interactúa en un entorno informal y observa información que luego se volverá relevante. Utiliza AGREGAR, ACTUALIZAR y ELIMINAR para crear y mantener la memoria a largo plazo. El contexto de corto plazo crece naturalmente durante esta etapa. Etapa 2, control de la memoria a corto plazo bajo distractores: se restablece el contexto a corto plazo. La memoria a largo plazo persiste. El agente ahora recibe contenido distractor relacionado pero no necesario. Debe gestionar la memoria a corto plazo mediante RESUMEN y FILTRO para mantener contenido útil y eliminar el ruido. Etapa 3, razonamiento integrado: llega la consulta final. El agente recupera de la memoria a largo plazo mediante RETRIEVE, controla el contexto a corto plazo y produce la respuesta.

El detalle crucial es que la memoria a largo plazo persiste en todas las etapas, mientras que la memoria a corto plazo se borra entre la Etapa 1 y la Etapa 2. Este diseño obliga al modelo a depender de la recuperación en lugar del contexto residual y expone dependencias realistas a largo plazo.

Diseño de recompensas y GRPO paso a paso

AgeMem utiliza una variante gradual de optimización de políticas relativas al grupo (GRPO). Para cada tarea, el sistema toma muestras de múltiples trayectorias que forman un grupo. Se calcula una recompensa terminal para cada trayectoria y luego se normaliza dentro del grupo para obtener una señal de ventaja. Esta ventaja se transmite a todos los pasos de la trayectoria para que las opciones de herramientas intermedias se entrenen utilizando el resultado final.

La recompensa total tiene tres componentes principales:

Una recompensa de tarea que califica la calidad de la respuesta entre 0 y 1 utilizando un juez de LLM. Una recompensa de contexto que mide la calidad de las operaciones de memoria a corto plazo, incluida la compresión, el resumen temprano y la preservación del contenido relevante para la consulta. Una recompensa de memoria que mide la calidad de la memoria a largo plazo, incluida la fracción de elementos almacenados de alta calidad, la utilidad de las operaciones de mantenimiento y la relevancia de los elementos recuperados para la consulta.

Se utilizan pesos uniformes para estos tres componentes de modo que cada uno contribuya por igual a la señal de aprendizaje. Se agrega un término de penalización cuando el agente excede la longitud máxima permitida del diálogo o cuando el contexto desborda el límite.

https://arxiv.org/pdf/2601.01885

Configuración experimental y resultados principales.

El equipo de investigación afina AgeMem en la división de entrenamiento HotpotQA y lo evalúa en 5 puntos de referencia:

ALFWorld para tareas incorporadas basadas en texto. SciWorld para entornos temáticos científicos. BabyAI para seguir las instrucciones. Tareas PDDL para la planificación. HotpotQA para responder preguntas con múltiples saltos.

Las métricas incluyen la tasa de éxito de ALFWorld, SciWorld y BabyAI, la tasa de progreso de las tareas PDDL y una puntuación de juez LLM para HotpotQA. También definen una métrica de calidad de la memoria utilizando un evaluador LLM que compara los recuerdos almacenados con los datos de respaldo de HotpotQA.

https://arxiv.org/pdf/2601.01885

Las líneas de base incluyen LangMem, A Mem, Mem0, Mem0g y un agente sin memoria. Las redes troncales son Qwen2.5-7B-Instruct y Qwen3-4B-Instruct.

En Qwen2.5-7B-Instruct, AgeMem alcanza una puntuación promedio de 41,96 en los 5 puntos de referencia, mientras que la mejor línea de base, Mem0, alcanza 37,14. En Qwen3-4B-Instruct, AgeMem alcanza 54,31, en comparación con 45,74 de la mejor línea de base, A Mem.

La calidad de la memoria también mejora. En HotpotQA, AgeMem alcanza 0,533 con Qwen2.5-7B y 0,605 con Qwen3-4B, que es más alto que todas las líneas de base.

Las herramientas de memoria a corto plazo reducen la duración de los mensajes y preservan el rendimiento. En HotpotQA, las configuraciones con herramientas STM utilizan entre un 3 y un 5 por ciento menos de tokens por mensaje que las variantes que reemplazan las herramientas STM con un canal de recuperación.

Los estudios de ablación confirman que cada componente es importante. Agregar solo herramientas de memoria a largo plazo además de una base sin memoria ya produce ganancias claras. Agregar aprendizaje reforzado a estas herramientas mejora aún más las puntuaciones. El sistema completo con herramientas a corto y largo plazo más RL ofrece una mejora de hasta 21,7 puntos porcentuales con respecto a la línea base sin memoria en SciWorld.

Implicaciones para el diseño de agentes LLM

AgeMem sugiere un patrón de diseño para futuros sistemas agentes. La memoria debe manejarse como parte de la política aprendida, no como dos subsistemas externos. Al convertir el almacenamiento, la recuperación, el resumen y el filtrado en herramientas explícitas y entrenarlas junto con la generación del lenguaje, el agente aprende cuándo recordar, cuándo olvidar y cómo gestionar el contexto de manera eficiente a lo largo de horizontes amplios.

Conclusiones clave

AgeMem convierte las operaciones de memoria en herramientas explícitas, por lo que la misma política que genera texto también decide cuándo AGREGAR, ACTUALIZAR, ELIMINAR, RECUPERAR, RESUMEN y FILTRAR memoria. La memoria a largo plazo y a corto plazo se entrenan conjuntamente a través de una configuración RL de tres etapas donde la memoria a largo plazo persiste en todas las etapas y el contexto a corto plazo se restablece para imponer el razonamiento basado en la recuperación. La función de recompensa combina precisión de la tarea, calidad de la gestión del contexto y calidad de la memoria a largo plazo con pesos uniformes, además de penalizaciones por desbordamiento del contexto y longitud excesiva del diálogo. En ALFWorld, SciWorld, BabyAI, tareas PDDL y HotpotQA, AgeMem en Qwen2.5-7B y Qwen3-4B supera consistentemente las líneas base de memoria como LangMem, A Mem y Mem0 en puntajes promedio y métricas de calidad de memoria. Las herramientas de memoria a corto plazo reducen la duración de las indicaciones entre un 3 y un 5 por ciento en comparación con las líneas base de estilo RAG, al tiempo que mantienen o mejoran el rendimiento, lo que demuestra que el resumen y el filtrado aprendidos pueden reemplazar las reglas de manejo de contexto hechas a mano.

Consulte el DOCUMENTO COMPLETO aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Consulte nuestra última versión de ai2025.dev, una plataforma de análisis centrada en 2025 que convierte los lanzamientos de modelos, los puntos de referencia y la actividad del ecosistema en un conjunto de datos estructurado que puede filtrar, comparar y exportar.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.