ServiceNow AI Research lanza DRBench, un punto de referencia realista de investigación profunda empresarial

ServiceNow Research ha lanzado DRBench, un entorno ejecutable y de referencia para evaluar agentes de “investigación profunda” en tareas empresariales abiertas que requieren sintetizar datos de la web pública y datos organizacionales privados en informes citados adecuadamente. A diferencia de los bancos de pruebas solo web, DRBench organiza flujos de trabajo heterogéneos de estilo empresarial (archivos, correos electrónicos, registros de chat y almacenamiento en la nube), de modo que los agentes deben recuperar, filtrar y atribuir conocimientos en múltiples aplicaciones antes de escribir un informe de investigación coherente.

https://arxiv.org/abs/2510.00172

¿Qué contiene DRBench?

La versión inicial proporciona 15 tareas de investigación profunda en 10 dominios empresariales (por ejemplo, Ventas, Ciberseguridad, Cumplimiento). Cada tarea especifica una pregunta de investigación profunda, un contexto de tarea (empresa y persona) y un conjunto de conocimientos básicos que abarcan tres clases: conocimientos públicos (de URL fechadas y estables en el tiempo), conocimientos internos relevantes y conocimientos de distractores internos. El punto de referencia incorpora explícitamente estos conocimientos en archivos y aplicaciones empresariales realistas, lo que obliga a los agentes a mostrar los relevantes y evitar distracciones. El proceso de construcción del conjunto de datos combina la generación de LLM con la verificación humana y totaliza 114 conocimientos reales en todas las tareas.

https://arxiv.org/abs/2510.00172

Entorno empresarial

Una contribución fundamental es el entorno empresarial en contenedores que integra servicios de uso común detrás de la autenticación y API específicas de aplicaciones. La imagen Docker de DRBench organiza: Nextcloud (documentos compartidos, WebDAV), Mattermost (chat en equipo, API REST), Roundcube con SMTP/IMAP (correo electrónico empresarial), FileBrowser (sistema de archivos local) y un escritorio VNC/NoVNC para interacción GUI. Las tareas se inicializan distribuyendo datos entre estos servicios (documentos a Nextcloud y FileBrowser, chats a los canales de Mattermost, correos electrónicos encadenados al sistema de correo y usuarios provistos de credenciales consistentes). Los agentes pueden operar a través de interfaces web o API programáticas expuestas por cada servicio. Esta configuración es intencionalmente “una aguja en un pajar”: se inyectan conocimientos relevantes y distractores en archivos realistas (PDF/DOCX/PPTX/XLSX, chats, correos electrónicos) y se completan con contenido plausible pero irrelevante.

Evaluación: qué se puntúa

DRBench evalúa cuatro ejes alineados con los flujos de trabajo de los analistas: recuperación de información, evitación de distractores, factualidad y calidad del informe. Insight Recall descompone el informe del agente en conocimientos atómicos con citas, los compara con conocimientos inyectados de verdad fundamental utilizando un juez de LLM y califica el recuerdo (no la precisión). La evitación de distractores penaliza la inclusión de insights distractores inyectados. La factibilidad y la calidad del informe evalúan la exactitud y la estructura/claridad del informe final bajo una rúbrica especificada en el informe.

https://arxiv.org/abs/2510.00172

Agente de referencia y circuito de investigación

El equipo de investigación presenta una línea base orientada a tareas, DRBench Agent (DRBA), diseñada para operar de forma nativa dentro del entorno DRBench. DRBA está organizado en cuatro componentes: planificación de investigación, planificación de acción, un circuito de investigación con planificación de acción adaptativa (AAP) y redacción de informes. La planificación admite dos modos: Planificación de investigación compleja (CRP), que especifica áreas de investigación, fuentes esperadas y criterios de éxito; y Planificación de investigación simple (SRP), que produce subconsultas ligeras. El ciclo de investigación selecciona de forma iterativa herramientas, procesa contenido (incluido el almacenamiento en un almacén de vectores), identifica brechas y continúa hasta su finalización o hasta un presupuesto de iteración máximo; el redactor del informe sintetiza los hallazgos con el seguimiento de citas.

¿Por qué esto es importante para los agentes empresariales?

La mayoría de los agentes de “investigación profunda” parecen convincentes en conjuntos de preguntas de la web pública, pero el uso en producción depende de encontrar de manera confiable las agujas internas correctas, ignorar posibles distractores internos y citar fuentes tanto públicas como privadas bajo restricciones empresariales (inicio de sesión, permisos, fricción en la interfaz de usuario). El diseño de DRBench apunta directamente a esta brecha al: (1) basar las tareas en contextos realistas de empresa/persona; (2) distribuir evidencia en múltiples aplicaciones empresariales más la web; y (3) calificar si el agente realmente extrajo los conocimientos deseados y redactó un informe coherente y fáctico. Esta combinación lo convierte en un punto de referencia práctico para los creadores de sistemas que necesitan una evaluación de un extremo a otro en lugar de micropuntuaciones de una sola herramienta.

https://arxiv.org/abs/2510.00172

Conclusiones clave

DRBench evalúa agentes de investigación profunda en tareas empresariales complejas y abiertas que requieren combinar datos de la web pública y de la empresa privada. La versión inicial cubre 15 tareas en 10 dominios, cada una de ellas basada en personas de usuario realistas y en un contexto organizacional. Las tareas abarcan artefactos empresariales heterogéneos (software de productividad, sistemas de archivos en la nube, correos electrónicos, chat) además de la web abierta, yendo más allá de las configuraciones exclusivamente web. Los informes se califican según la recuperación de conocimientos, la precisión de los hechos y la presentación de informes coherentes y bien estructurados mediante una evaluación basada en rúbricas. El código y los activos de referencia son de código abierto en GitHub para una evaluación y extensión reproducibles.

Desde el punto de vista de la evaluación empresarial, DRBench es un paso útil hacia la prueba estandarizada de extremo a extremo de agentes de “investigación profunda”: ​​las tareas son abiertas, se basan en personas realistas y requieren integrar evidencia de la web pública y una base de conocimientos de una empresa privada, para luego producir un informe coherente y bien estructurado, precisamente el flujo de trabajo que interesa a la mayoría de los equipos de producción. El comunicado también aclara lo que se está midiendo (recuperación de información relevante, precisión de los hechos y calidad de los informes) al tiempo que va explícitamente más allá de las configuraciones solo web que se ajustan demasiado a las heurísticas de navegación. Las 15 tareas en 10 dominios son de escala modesta pero suficientes para exponer los cuellos de botella del sistema (recuperación de artefactos heterogéneos, disciplina de citas y ciclos de planificación).

Consulte la página de Paper y GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.