Los investigadores de Microsoft han presentado CORPGEN, un marco independiente de la arquitectura diseñado para gestionar las complejidades del trabajo organizacional realista a través de empleados digitales autónomos. Si bien los puntos de referencia existentes evalúan a los agentes de IA en tareas únicas y aisladas, los entornos corporativos del mundo real requieren la gestión de docenas de tareas simultáneas e intercaladas con dependencias complejas. El equipo de investigación identifica esta clase de problema distinta como entornos de tareas multihorizonte (MHTE).
La brecha de desempeño en los MHTE
Las pruebas empíricas revelan que los agentes que utilizan computadoras (CUA) de referencia experimentan una degradación significativa del rendimiento cuando se pasan de escenarios de tarea única a MHTE. Utilizando tres implementaciones CUA independientes, las tasas de finalización cayeron del 16,7 % con una carga del 25 % al 8,7 % con una carga del 100 %.
El equipo de investigación identificó cuatro modos de falla fundamentales que causan esta disminución:
Saturación de contexto: los requisitos de contexto aumentan O(N) con el recuento de tareas en lugar de O(1), superando rápidamente la capacidad de la ventana de token. Interferencia de la memoria: la información de una tarea a menudo contamina el razonamiento sobre otra cuando varias tareas comparten una única ventana de contexto. Complejidad del gráfico de dependencia: las tareas corporativas forman gráficos acíclicos dirigidos (DAG) en lugar de cadenas lineales, lo que requiere un razonamiento topológico complejo. Gastos generales de repriorización: la complejidad de las decisiones aumenta a O(N) por ciclo porque los agentes deben reevaluar constantemente las prioridades en todas las tareas activas.
La Arquitectura CORPGEN
Para abordar estas fallas, CORPGEN implementa capacidades de Agente multiobjetivo y multihorizonte (MOMA) a través de cuatro mecanismos arquitectónicos principales.
(a) Planificación Jerárquica
La coherencia estratégica se mantiene mediante la descomposición de objetivos en tres escalas temporales:
Objetivos estratégicos (mensuales): metas e hitos de alto nivel basados en la identidad y el rol del agente. Planes tácticos (diarios): tareas procesables para aplicaciones específicas con clasificaciones de prioridad. Acciones operativas (por ciclo): llamadas de herramientas individuales seleccionadas en función del estado actual y la memoria recuperada.
(b) Aislamiento de subagente
Las operaciones complejas, como la automatización o la investigación de GUI, se aíslan en subagentes modulares. Estos agentes autónomos operan en sus propios ámbitos de contexto y devuelven solo resultados estructurados al agente anfitrión, evitando la contaminación de la memoria entre tareas.
(c) Arquitectura de memoria por niveles
El sistema utiliza una estructura de memoria de tres capas para gestionar el estado:
Memoria de trabajo: destinada al razonamiento inmediato, esta capa se reinicia cada ciclo. Memoria estructurada a largo plazo (LTM): almacena artefactos escritos, como planos, resúmenes y reflexiones. Memoria semántica: utiliza Mem0 para admitir la recuperación basada en similitudes sobre contexto pasado no estructurado mediante incrustaciones.
(d) Resumen adaptativo
Para limitar el crecimiento del contexto, CORPGEN emplea compresión basada en reglas. Cuando la longitud del contexto supera los 4000 tokens, el “contenido crítico” (como llamadas a herramientas y cambios de estado) se conserva palabra por palabra, mientras que el “contenido de rutina” (razonamiento intermedio) se comprime en resúmenes estructurados.
Resultados experimentales y aprendizaje
En tres backends de CUA (UFO2, OpenAI CUA y jerárquico), CORPGEN logró una mejora de hasta 3,5 veces con respecto a las líneas de base, alcanzando una tasa de finalización del 15,2 % en comparación con el 4,3 % de UFO2 independiente con una carga del 100 %.
Los estudios de ablación indican que el aprendizaje experiencial proporciona las mayores ganancias de rendimiento. Este mecanismo destila ejecuciones exitosas de tareas en trayectorias canónicas que luego se indexan en una base de datos FAISS. En el momento de la ejecución, se recuperan trayectorias similares como ejemplos de pocas tomas para sesgar la selección de acciones hacia patrones validados.
El equipo de investigación observó una discrepancia significativa en los métodos de evaluación. El juicio basado en artefactos (inspeccionando los archivos generados y los resultados) logró una tasa de acuerdo del 90 % con las etiquetas humanas. Por el contrario, el juicio de LLM basado en seguimiento (que se basa en capturas de pantalla y registros de ejecución) solo logró un 40% de acuerdo. Esto sugiere que los puntos de referencia actuales pueden subestimar sistemáticamente el desempeño de los agentes al depender de rastros visuales limitados en lugar de los artefactos reales producidos.
Conclusiones clave
Identificación de entornos de tareas de múltiples horizontes (MHTE): el equipo de investigación define una nueva clase de problemas llamados MHTE, donde los agentes deben gestionar docenas de tareas intercaladas de largo horizonte (más de 45 tareas, entre 500 y 1500 pasos) dentro de un único contexto persistente. Esto difiere de los puntos de referencia tradicionales que evalúan tareas individuales de forma aislada. Descubrimiento de una degradación catastrófica del rendimiento: los agentes estándar que utilizan computadoras (CUA) experimentan una caída “catastrófica” en el rendimiento cuando aumenta la carga de tareas, con tasas de finalización que caen del 16,7 % con una carga del 25 % al 8,7 % con una carga del 100 %. Cuatro modos de falla fundamentales: los investigadores identificaron por qué los agentes actuales fallan bajo carga: saturación de contexto (crecimiento de O(N)), interferencia de la memoria (combinación de tareas), complejidad de la dependencia (administración de gráficos acíclicos dirigidos) y sobrecarga de priorización (complejidad de decisión de O(N). Mitigación arquitectónica a través de CORPGEN: el marco CORPGEN aborda estas fallas a través de cuatro mecanismos centrales: planificación jerárquica para la alineación de objetivos, aislamiento de subagente para evitar la contaminación de la memoria, memoria escalonada (de trabajo, estructurada y semántica) y resumen adaptativo para gestionar los límites de los tokens. Mejoras significativas en el rendimiento a través del aprendizaje experiencial: la evaluación en múltiples backends mostró que CORPGEN puede mejorar el rendimiento hasta 3,5 veces con respecto a las líneas de base. Los estudios de ablación revelaron que el aprendizaje experiencial (reutilizar trayectorias exitosas verificadas) proporciona el mayor aumento de rendimiento entre todos los componentes arquitectónicos.
Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.