Google Cloud AI Research presenta ReasoningBank: un marco de memoria que destila estrategias de razonamiento a partir de los éxitos y fracasos de los agentes

La mayoría de los agentes de IA hoy en día tienen un problema fundamental de amnesia. Implemente uno para navegar por la web, resolver problemas de GitHub o navegar por una plataforma de compras y abordará cada tarea como si nunca antes hubiera visto algo así. No importa cuántas veces se haya topado con el mismo tipo de problema, repite los mismos errores. Las lecciones valiosas se evaporan en el momento en que finaliza una tarea.

Un equipo de investigadores de Google Cloud AI, la Universidad de Illinois Urbana-Champaign y la Universidad de Yale presenta ReasoningBank, un marco de memoria que no solo registra lo que hizo un agente, sino que destila por qué algo funcionó o falló en estrategias de razonamiento reutilizables y generalizables.

El problema con la memoria del agente existente

Para comprender por qué ReasoningBank es importante, es necesario comprender qué hace realmente la memoria del agente existente. Dos enfoques populares son la memoria de trayectoria (utilizada en un sistema llamado Synapse) y la memoria de flujo de trabajo (utilizada en Agent Workflow Memory o AWM). La memoria de trayectoria almacena registros de acciones sin procesar: cada clic, desplazamiento y consulta escrita que ejecuta un agente. La memoria de flujo de trabajo va un paso más allá y extrae procedimientos paso a paso reutilizables únicamente de ejecuciones exitosas.

Ambos tienen puntos ciegos críticos. Las trayectorias sin procesar son ruidosas y demasiado largas para ser útiles directamente para nuevas tareas. La memoria de flujo de trabajo solo extrae intentos exitosos, lo que significa que la rica señal de aprendizaje oculta en cada falla (y los agentes fallan muchas veces) se descarta por completo.

https://arxiv.org/pdf/2509.25140

Cómo funciona ReasoningBank

ReasoningBank opera como un proceso de memoria de circuito cerrado con tres etapas que se ejecutan en cada tarea completada: recuperación de memoria, extracción de memoria y consolidación de memoria.

https://arxiv.org/pdf/2509.25140

Antes de que un agente comience una nueva tarea, consulta ReasoningBank mediante una búsqueda de similitud basada en incrustaciones para recuperar los k elementos de memoria más relevantes. Esos elementos se inyectan directamente en el indicador del sistema del agente como contexto adicional. Es importante destacar que el valor predeterminado es k=1, un único elemento de memoria recuperado por tarea. Los experimentos de ablación muestran que recuperar más recuerdos en realidad perjudica el rendimiento: la tasa de éxito cae del 49,7% en k=1 al 44,4% en k=4. La calidad y relevancia de la memoria recuperada importan mucho más que la cantidad.

Una vez finalizada la tarea, un Memory Extractor, impulsado por el mismo LLM principal que el agente, analiza la trayectoria y la destila en elementos de memoria estructurados. Cada elemento tiene tres componentes: un título (un nombre conciso de la estrategia), una descripción (un resumen de una oración) y contenido (de 1 a 3 oraciones de pasos de razonamiento resumidos o ideas operativas). Fundamentalmente, el extractor trata las trayectorias exitosas y fallidas de manera diferente: los éxitos aportan estrategias validadas, mientras que los fracasos proporcionan trampas contrafácticas y lecciones preventivas.

Para decidir si una trayectoria fue exitosa o no (sin acceso a etiquetas de verdad sobre el terreno en el momento de la prueba), el sistema utiliza un LLM como juez, que genera un veredicto binario de “éxito” o “fracaso” dada la consulta del usuario, la trayectoria y el estado final de la página. El juez no necesita ser perfecto; Los experimentos de ablación muestran que ReasoningBank sigue siendo sólido incluso cuando la precisión de los jueces cae a alrededor del 70%.

Luego, los nuevos elementos de memoria se agregan directamente al almacén de ReasoningBank, se mantienen como JSON con incrustaciones precalculadas para una búsqueda rápida de similitudes de cosenos, completando el ciclo.

MaTTS: Emparejamiento de memoria con escalado de tiempo de prueba

El equipo de investigación va más allá e introduce el escalado en el tiempo de prueba con reconocimiento de la memoria (MaTTS), que vincula ReasoningBank con el escalado informático en el tiempo de la prueba, una técnica que ya ha demostrado ser poderosa en tareas de codificación y razonamiento matemático.

La idea es simple pero importante: el escalado en el momento de la prueba genera múltiples trayectorias para la misma tarea. En lugar de simplemente elegir la mejor respuesta y descartar el resto, MaTTS utiliza el conjunto completo de trayectorias como ricas señales contrastantes para la extracción de recuerdos.

MaTTS viene de dos maneras. El escalado paralelo genera k trayectorias independientes para la misma consulta y luego utiliza el autocontraste (comparando lo que salió bien y lo que salió mal en todas las trayectorias) para extraer elementos de memoria más confiables y de mayor calidad. El escalado secuencial refina de forma iterativa una única trayectoria mediante el autorefinamiento, capturando correcciones intermedias y conocimientos como señales de memoria.

El resultado es un circuito de retroalimentación positiva: una mejor memoria guía al agente hacia implementaciones más prometedoras, y las implementaciones más ricas forjan una memoria aún más fuerte. El documento señala que en k=5, el escalamiento paralelo (55,1% SR) supera al escalamiento secuencial (54,5% SR) en WebArena-Shopping: las ganancias secuenciales se saturan rápidamente una vez que el modelo alcanza un éxito o fracaso decisivo, mientras que el escalado paralelo sigue proporcionando implementaciones diversas que el agente puede contrastar y de las que aprender.

https://arxiv.org/pdf/2509.25140

Resultados en tres puntos de referencia

Probado en WebArena (un punto de referencia de navegación web que abarca tareas de compras, administración, GitLab y Reddit), Mind2Web (que prueba la generalización en configuraciones de tareas cruzadas, sitios web y dominios cruzados) y SWE-Bench-Verified (un punto de referencia de ingeniería de software a nivel de repositorio con 500 instancias verificadas), ReasoningBank supera consistentemente todas las líneas de base en los tres conjuntos de datos y todos los modelos troncales probados.

En WebArena con Gemini-2.5-Flash, ReasoningBank mejoró la tasa de éxito general en +8,3 puntos porcentuales sobre la línea base sin memoria (40,5% → 48,8%), al tiempo que redujo los pasos de interacción promedio hasta en 1,4 en comparación con sin memoria y hasta 1,6 en comparación con otras líneas base de memoria. Las ganancias de eficiencia son más marcadas en trayectorias exitosas: en el subconjunto de Compras, por ejemplo, ReasoningBank redujo en 2,1 pasos la finalización exitosa de tareas (una reducción relativa del 26,9%). El agente llega a las soluciones más rápido porque conoce el camino correcto, no simplemente porque abandona antes los intentos fallidos.

En Mind2Web, ReasoningBank ofrece ganancias consistentes en divisiones de evaluación entre tareas, sitios web y dominios, con las mejoras más pronunciadas en el entorno entre dominios, donde se requiere el mayor grado de transferencia de estrategia y donde los métodos competitivos como AWM en realidad se degradan en relación con la línea de base sin memoria.

En SWE-Bench-Verified, los resultados varían significativamente según el modelo de red troncal. Con Gemini-2.5-Pro, ReasoningBank logra una tasa de resolución del 57,4 % frente al 54,0 % de la línea base sin memoria, ahorrando 1,3 pasos por tarea. Con Gemini-2.5-Flash, el ahorro de pasos es más espectacular: 2,8 pasos menos por tarea (30,3 → 27,5) junto con una mejora en la tasa de resolución del 34,2 % al 38,8 %.

Agregar MaTTS (escala paralela, k=5) mejora aún más los resultados. ReasoningBank con MaTTS alcanza un SR general del 56,3 % en WebArena con Gemini-2.5-Pro, en comparación con el 46,7 % de la línea base sin memoria, al tiempo que reduce los pasos promedio de 8,8 a 7,1 por tarea.

Evolución de la estrategia emergente

Uno de los hallazgos más sorprendentes es que la memoria de ReasoningBank no permanece estática: evoluciona. En un estudio de caso documentado, los elementos de memoria iniciales del agente para una estrategia de “Navegación de información específica del usuario” se asemejan a listas de verificación de procedimientos simples: “busque activamente y haga clic en los enlaces ‘Página siguiente’, ‘Página X’ o ‘Cargar más'”. A medida que el agente acumula experiencia, esos mismos elementos de memoria maduran en autorreflexiones adaptativas, luego en comprobaciones sistemáticas previas a la tarea y, finalmente, en estrategias de composición como “cruzar periódicamente la vista actual con los requisitos de la tarea; si los datos actuales no se alinean con las expectativas, reevaluar las opciones disponibles, como filtros de búsqueda y secciones alternativas”. El equipo de investigación describe esto como un comportamiento emergente que se asemeja a la dinámica de aprendizaje del aprendizaje por refuerzo y que ocurre completamente en el momento de la prueba, sin ninguna actualización del peso del modelo.

Conclusiones clave

El fracaso es finalmente una señal de aprendizaje: a diferencia de los sistemas de memoria de agentes existentes (Synapse, AWM) que solo aprenden de trayectorias exitosas, ReasoningBank extrae estrategias de razonamiento generalizables tanto de los éxitos como de los fracasos, convirtiendo los errores en barreras preventivas para tareas futuras. Los elementos de la memoria están estructurados, no en bruto: ReasoningBank no almacena registros de acciones desordenados. Comprime la experiencia en elementos de memoria limpios de tres partes (título, descripción, contenido) que son interpretables por humanos y directamente inyectables en el sistema de un agente a través de una búsqueda de similitud basada en incrustaciones. La calidad supera a la cantidad en la recuperación: la recuperación óptima es k=1, solo un elemento de memoria por tarea. Recuperar más recuerdos perjudica progresivamente el rendimiento (49,7% SR en k=1 cae a 44,4% en k=4), lo que hace que la relevancia de la memoria recuperada sea más importante que el volumen. La escala de memoria y tiempo de prueba crea un círculo virtuoso. MaTTS (escalado de tiempo de prueba con reconocimiento de la memoria) utiliza diversas trayectorias de exploración como señales contrastantes para forjar recuerdos más fuertes, lo que a su vez guía una mejor exploración: un ciclo de retroalimentación que eleva las tasas de éxito de WebArena al 56,3 % con Gemini-2.5-Pro, frente al 46,7 % sin memoria.

Consulte el documento, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros