Microsoft Research presenta CORPGEN para gestionar tareas de múltiples horizontes para agentes autónomos de IA mediante planificación jerárquica y memoria

Los investigadores de Microsoft han presentado CORPGEN, un marco independiente de la arquitectura diseñado para gestionar las complejidades del trabajo organizacional realista a través de empleados digitales autónomos. Si bien los puntos de referencia existentes evalúan a los agentes de IA en tareas únicas y aisladas, los entornos corporativos del mundo real requieren la gestión de docenas de tareas simultáneas e intercaladas con dependencias complejas. El equipo de investigación identifica esta clase de problema distinta como entornos de tareas multihorizonte (MHTE).

La brecha de desempeño en los MHTE

Las pruebas empíricas revelan que los agentes que utilizan computadoras (CUA) de referencia experimentan una degradación significativa del rendimiento cuando se pasan de escenarios de tarea única a MHTE. Utilizando tres implementaciones CUA independientes, las tasas de finalización cayeron del 16,7 % con una carga del 25 % al 8,7 % con una carga del 100 %.

El equipo de investigación identificó cuatro modos de falla fundamentales que causan esta disminución:

Saturación de contexto: los requisitos de contexto aumentan O(N) con el recuento de tareas en lugar de O(1), superando rápidamente la capacidad de la ventana de token. Interferencia de la memoria: la información de una tarea a menudo contamina el razonamiento sobre otra cuando varias tareas comparten una única ventana de contexto. Complejidad del gráfico de dependencia: las tareas corporativas forman gráficos acíclicos dirigidos (DAG) en lugar de cadenas lineales, lo que requiere un razonamiento topológico complejo. Gastos generales de repriorización: la complejidad de las decisiones aumenta a O(N) por ciclo porque los agentes deben reevaluar constantemente las prioridades en todas las tareas activas.

https://arxiv.org/pdf/2602.14229

La Arquitectura CORPGEN

Para abordar estas fallas, CORPGEN implementa capacidades de Agente multiobjetivo y multihorizonte (MOMA) a través de cuatro mecanismos arquitectónicos principales.

(a) Planificación Jerárquica

La coherencia estratégica se mantiene mediante la descomposición de objetivos en tres escalas temporales:

Objetivos estratégicos (mensuales): metas e hitos de alto nivel basados en la identidad y el rol del agente. Planes tácticos (diarios): tareas procesables para aplicaciones específicas con clasificaciones de prioridad. Acciones operativas (por ciclo): llamadas de herramientas individuales seleccionadas en función del estado actual y la memoria recuperada.

(b) Aislamiento de subagente

Las operaciones complejas, como la automatización o la investigación de GUI, se aíslan en subagentes modulares. Estos agentes autónomos operan en sus propios ámbitos de contexto y devuelven solo resultados estructurados al agente anfitrión, evitando la contaminación de la memoria entre tareas.

(c) Arquitectura de memoria por niveles

El sistema utiliza una estructura de memoria de tres capas para gestionar el estado:

Memoria de trabajo: destinada al razonamiento inmediato, esta capa se reinicia cada ciclo. Memoria estructurada a largo plazo (LTM): almacena artefactos escritos, como planos, resúmenes y reflexiones. Memoria semántica: utiliza Mem0 para admitir la recuperación basada en similitudes sobre contexto pasado no estructurado mediante incrustaciones.

(d) Resumen adaptativo

Para limitar el crecimiento del contexto, CORPGEN emplea compresión basada en reglas. Cuando la longitud del contexto supera los 4000 tokens, el “contenido crítico” (como llamadas a herramientas y cambios de estado) se conserva palabra por palabra, mientras que el “contenido de rutina” (razonamiento intermedio) se comprime en resúmenes estructurados.

Resultados experimentales y aprendizaje

En tres backends de CUA (UFO2, OpenAI CUA y jerárquico), CORPGEN logró una mejora de hasta 3,5 veces con respecto a las líneas de base, alcanzando una tasa de finalización del 15,2 % en comparación con el 4,3 % de UFO2 independiente con una carga del 100 %.

Los estudios de ablación indican que el aprendizaje experiencial proporciona las mayores ganancias de rendimiento. Este mecanismo destila ejecuciones exitosas de tareas en trayectorias canónicas que luego se indexan en una base de datos FAISS. En el momento de la ejecución, se recuperan trayectorias similares como ejemplos de pocas tomas para sesgar la selección de acciones hacia patrones validados.

El equipo de investigación observó una discrepancia significativa en los métodos de evaluación. El juicio basado en artefactos (inspeccionando los archivos generados y los resultados) logró una tasa de acuerdo del 90 % con las etiquetas humanas. Por el contrario, el juicio de LLM basado en seguimiento (que se basa en capturas de pantalla y registros de ejecución) solo logró un 40% de acuerdo. Esto sugiere que los puntos de referencia actuales pueden subestimar sistemáticamente el desempeño de los agentes al depender de rastros visuales limitados en lugar de los artefactos reales producidos.

Conclusiones clave

Identificación de entornos de tareas de múltiples horizontes (MHTE): el equipo de investigación define una nueva clase de problemas llamados MHTE, donde los agentes deben gestionar docenas de tareas intercaladas de largo horizonte (más de 45 tareas, entre 500 y 1500 pasos) dentro de un único contexto persistente. Esto difiere de los puntos de referencia tradicionales que evalúan tareas individuales de forma aislada. Descubrimiento de una degradación catastrófica del rendimiento: los agentes estándar que utilizan computadoras (CUA) experimentan una caída “catastrófica” en el rendimiento cuando aumenta la carga de tareas, con tasas de finalización que caen del 16,7 % con una carga del 25 % al 8,7 % con una carga del 100 %. Cuatro modos de falla fundamentales: los investigadores identificaron por qué los agentes actuales fallan bajo carga: saturación de contexto (crecimiento de O(N)), interferencia de la memoria (combinación de tareas), complejidad de la dependencia (administración de gráficos acíclicos dirigidos) y sobrecarga de priorización (complejidad de decisión de O(N). Mitigación arquitectónica a través de CORPGEN: el marco CORPGEN aborda estas fallas a través de cuatro mecanismos centrales: planificación jerárquica para la alineación de objetivos, aislamiento de subagente para evitar la contaminación de la memoria, memoria escalonada (de trabajo, estructurada y semántica) y resumen adaptativo para gestionar los límites de los tokens. Mejoras significativas en el rendimiento a través del aprendizaje experiencial: la evaluación en múltiples backends mostró que CORPGEN puede mejorar el rendimiento hasta 3,5 veces con respecto a las líneas de base. Los estudios de ablación revelaron que el aprendizaje experiencial (reutilizar trayectorias exitosas verificadas) proporciona el mayor aumento de rendimiento entre todos los componentes arquitectónicos.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

Microsoft Research presenta CORPGEN para gestionar tareas de múltiples horizontes para agentes autónomos de IA mediante planificación jerárquica y memoria

ByEquipo de 7 minutos

La brecha de desempeño en los MHTE

La Arquitectura CORPGEN

(a) Planificación Jerárquica

(b) Aislamiento de subagente

(c) Arquitectura de memoria por niveles

(d) Resumen adaptativo

Resultados experimentales y aprendizaje

Conclusiones clave

By Equipo de 7 minutos

Related Post

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

Una implementación de codificación para recuperar IOC de malware oculto con FLARE-FLOSS más allá del análisis de cadenas clásico

Cómo construir una canalización de análisis de secuenciación de ARN unicelular con Scanpy para agrupación, anotación y descubrimiento de trayectorias de PBMC

You missed

La playa de Mallorca, sintomática de masificación, va desapareciendo poco a poco

¿Es contagioso el hantavirus? Actualizaciones de brotes, tratamiento y tasa de mortalidad – Hollywood Life

Celebre el Día de la Madre con nueve mamás animales atrevidas, hermosas y extrañas

El veterano de combate estadounidense George Retes está demandando a los federales por el arresto de ICE