ServiceNow Research presenta EnterpriseOps-Gym: un punto de referencia de alta fidelidad diseñado para evaluar la planificación agente en entornos empresariales realistas

Los modelos de lenguajes grandes (LLM) están pasando de ser conversacionales a agentes autónomos capaces de ejecutar flujos de trabajo profesionales complejos. Sin embargo, su implementación en entornos empresariales sigue limitada por la falta de puntos de referencia que capturen los desafíos específicos de los entornos profesionales: planificación a largo plazo, cambios de estado persistentes y protocolos de acceso estrictos. Para abordar esto, investigadores de ServiceNow Research, Mila y la Universidad de Montreal han presentado EnterpriseOps-Gym, un sandbox de alta fidelidad diseñado para evaluar la planificación agente en escenarios empresariales realistas.

https://arxiv.org/pdf/2603.13594

El entorno de evaluación

EnterpriseOps-Gym presenta un entorno Docker en contenedores que simula ocho dominios empresariales de misión crítica:

Dominios operativos: Gestión de servicio al cliente (CSM), Recursos humanos (RRHH) y Gestión de servicios de TI (ITSM). Dominios de colaboración: correo electrónico, calendario, equipos y Drive. Dominio híbrido: tareas entre dominios que requieren ejecución coordinada en múltiples sistemas.

El punto de referencia comprende 164 tablas de bases de datos relacionales y 512 herramientas funcionales. Con un grado medio de clave externa de 1,7, el entorno presenta una alta densidad relacional, lo que obliga a los agentes a navegar por dependencias complejas entre tablas para mantener la integridad referencial. El punto de referencia incluye 1150 tareas seleccionadas por expertos, con trayectorias de ejecución que promedian 9 pasos y alcanzan hasta 34 pasos.

Resultados de desempeño: una brecha de capacidad

El equipo de investigación evaluó 14 modelos de frontera utilizando una métrica pass@1, donde una tarea tiene éxito sólo si todos los verificadores SQL basados ​​en resultados pasan.

ModeloTasa de éxito promedio (%)Costo por tarea (USD)Claude Opus 4.537.4%$0.36Gemini-3-Flash31.9%$0.03GPT-5.2 (Alto)31.8%No aparece explícitamente en el textoClaude Sonnet 4.530.9%$0.26GPT-529.8%$0.16DeepSeek-V3.2 (Alto)24,5%$0,014GPT-OSS-120B (Alto)23,7%$0,015

Los resultados indican que incluso los modelos más modernos no logran alcanzar el 40% de confiabilidad en estos entornos estructurados. El rendimiento depende en gran medida del dominio; Los modelos funcionaron mejor en herramientas de colaboración (correo electrónico, equipos), pero cayeron significativamente en dominios con muchas políticas como flujos de trabajo ITSM (28,5%) e híbridos (30,7%).

Planificación versus ejecución

Un hallazgo fundamental de esta investigación es que la planificación estratégica, más que la invocación de herramientas, es el principal cuello de botella en el desempeño.

El equipo de investigación llevó a cabo experimentos ‘Oracle’ en los que a los agentes se les proporcionaron planes escritos por humanos. Esta intervención mejoró el rendimiento entre 14 y 35 puntos porcentuales en todos los modelos. Sorprendentemente, modelos más pequeños como el Qwen3-4B se volvieron competitivos con modelos mucho más grandes cuando se externalizó el razonamiento estratégico. Por el contrario, agregar ‘herramientas distractoras’ para simular errores de recuperación tuvo un impacto insignificante en el rendimiento, lo que sugiere además que el descubrimiento de herramientas no es la restricción vinculante.

Modos de falla y preocupaciones de seguridad

El análisis cualitativo reveló cuatro patrones de falla recurrentes:

Búsqueda de requisitos previos faltantes: creación de objetos sin consultar los requisitos previos necesarios, lo que genera registros “huérfanos”. Propagación de estado en cascada: no activar las acciones de seguimiento requeridas por las políticas del sistema después de un cambio de estado. Resolución de ID incorrecta: pasar identificadores no verificados o adivinados a llamadas de herramientas. Alucinación de finalización prematura: declarar finalizada una tarea antes de que se ejecuten todos los pasos requeridos.

Además, los agentes luchan con un rechazo seguro. El punto de referencia incluye 30 tareas inviables (por ejemplo, solicitudes que violan las reglas de acceso o que involucran a usuarios inactivos). El modelo de mejor rendimiento, GPT-5.2 (Bajo), rechazó correctamente estas tareas sólo el 53,9% de las veces. En entornos profesionales, no rechazar una tarea no autorizada o imposible puede provocar estados corruptos de la base de datos y riesgos de seguridad.

Sistemas de orquestación y multiagente (MAS)

El equipo de investigación también evaluó si arquitecturas de agentes más complejas podrían cerrar la brecha de rendimiento. Si bien una configuración Planificador+Ejecutor (donde un modelo planifica y otro ejecuta) produjo ganancias modestas, las arquitecturas de descomposición más complejas a menudo redujeron el rendimiento. En dominios como CSM y RR.HH., las tareas tienen fuertes dependencias de estado secuenciales; dividirlas en subtareas para agentes separados a menudo interrumpía el contexto necesario, lo que generaba tasas de éxito más bajas que los simples bucles de ReAct.

Consideraciones económicas: la frontera de Pareto

Para la implementación, el punto de referencia establece una clara relación costo-rendimiento:

Gemini-3-Flash representa la compensación práctica más sólida para los modelos de código cerrado, ya que ofrece un rendimiento del 31,9 % a un costo un 90 % menor que GPT-5 o Claude Sonnet 4.5. DeepSeek-V3.2 (Alto) y GPT-OSS-120B (Alto) son las opciones de código abierto dominantes, y ofrecen aproximadamente un rendimiento del 24 % a aproximadamente 0,015 dólares por tarea. Claude Opus 4.5 sigue siendo el punto de referencia en cuanto a confiabilidad absoluta (37,4%), pero al costo más alto de 0,36 dólares por tarea.

Conclusiones clave

Escala de referencia y complejidad: EnterpriseOps-Gym proporciona un entorno de evaluación de alta fidelidad con 164 tablas de bases de datos relacionales y 512 herramientas funcionales en ocho dominios empresariales. Brecha de rendimiento significativa: los modelos de frontera actuales aún no son confiables para el despliegue autónomo; el modelo de mayor rendimiento, Claude Opus 4.5, logra sólo una tasa de éxito del 37,4%. La planificación como principal cuello de botella: el razonamiento estratégico es la limitación vinculante en lugar de la ejecución de herramientas, ya que proporcionar a los agentes planes creados por humanos mejora el rendimiento entre 14 y 35 puntos porcentuales. Rechazo seguro inadecuado: los modelos luchan por identificar y rechazar solicitudes inviables o que violan las políticas, e incluso el modelo con mejor rendimiento se abstiene claramente solo el 53,9% de las veces. Limitaciones del presupuesto de pensamiento: si bien el aumento de la computación en el momento de las pruebas genera ganancias en algunos dominios, el rendimiento se estanca en otros, lo que sugiere que más tokens de “pensamiento” no pueden superar por completo las brechas fundamentales en la comprensión de políticas o el conocimiento del dominio.

Consulta Papel, Códigos y Detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.