Qualifire AI lanza Rogue: un marco de pruebas de IA agente de extremo a extremo que evalúa el rendimiento de los agentes de IA

Los sistemas agentes son estocásticos, dependientes del contexto y sujetos a políticas. El control de calidad convencional (pruebas unitarias, indicaciones estáticas o puntuaciones escalares de “LLM como juez”) no expone las vulnerabilidades de múltiples turnos y proporciona pistas de auditoría débiles. Los equipos de desarrolladores necesitan conversaciones con protocolos precisos, verificaciones de políticas explícitas y evidencia legible por máquina que pueda controlar los lanzamientos con confianza.

Qualifire AI tiene Rogue de código abierto, un marco de Python que evalúa agentes de IA a través del protocolo Agente a Agente (A2A). Rogue convierte las políticas comerciales en escenarios ejecutables, impulsa interacciones de múltiples turnos contra un agente objetivo y genera informes deterministas adecuados para CI/CD y revisiones de cumplimiento.

Inicio rápido

Requisitos previos

uvx: si no está instalado, siga la guía de instalación de uv Python 3.10+ Una clave API para un proveedor de LLM (por ejemplo, OpenAI, Google, Anthropic).

Instalación

Opción 1: Instalación rápida (recomendada)

Utilice nuestro script de instalación automatizada para comenzar a funcionar rápidamente:

# TUI uvx rogue-ai # UI web uvx rogue-ai ui # CLI / CI/CD uvx rogue-ai cli

Opción 2: Instalación manual

(a) Clonar el repositorio:

clon de git https://github.com/qualifire-dev/rogue.git cd rogue

(b) Instalar dependencias:

Si estás usando ultravioleta:

O, si estás usando pip:

(c) OPCIONALMENTE: Configure sus variables de entorno: cree un archivo .env en el directorio raíz y agregue sus claves API. Rogue usa LiteLLM, por lo que puedes configurar claves para varios proveedores.

OPENAI_API_KEY=”sk-…” ANTHROPIC_API_KEY=”sk-…” GOOGLE_API_KEY=”…”

Corredor pícaro

Rogue opera en una arquitectura cliente-servidor donde la lógica de evaluación central se ejecuta en un servidor backend y varios clientes se conectan a él para diferentes interfaces.

Comportamiento predeterminado

Cuando ejecuta uvx rogue-ai sin ningún modo especificado,:

Inicia el servidor Rogue en segundo plano Inicia el cliente TUI (Terminal User Interface)

Modos disponibles

Predeterminado (Servidor + TUI): uvx rogue-ai: inicia el servidor en segundo plano + cliente TUI Servidor: servidor uvx rogue-ai: ejecuta solo el servidor backend TUI: uvx rogue-ai tui: ejecuta solo el cliente TUI (requiere que el servidor esté en ejecución) UI web: uvx rogue-ai ui: ejecuta solo el cliente de interfaz web Gradio (requiere que el servidor esté en ejecución) CLI: uvx rogue-ai cli: se ejecuta Evaluación de línea de comandos no interactiva (requiere servidor en ejecución, ideal para CI/CD)

Argumentos de modo

Modo servidor

servidor uvx rogue-ai [OPTIONS]

Opciones:

–host HOST: host en el que ejecutar el servidor (predeterminado: 127.0.0.1 o HOST env var) –port PORT: puerto en el que ejecutar el servidor (predeterminado: 8000 o PORT env var) –debug: habilita el registro de depuración

Modo TUI

uvx rogue-ai tui [OPTIONS]
Modo de interfaz de usuario web uvx rogue-ai ui [OPTIONS]

Opciones:

–rogue-server-url URL: URL del servidor no autorizado (predeterminado: http://localhost:8000) –port PORT: puerto donde ejecutar la interfaz de usuario –workdir WORKDIR: directorio de trabajo (predeterminado: ./.rogue) –debug: habilita el registro de depuración

Ejemplo: prueba del agente de la tienda de camisetas

Este repositorio incluye un agente de ejemplo sencillo que vende camisetas. Puedes usarlo para ver a Rogue en acción.

Instalar dependencias de ejemplo:

Si estás usando ultravioleta:

o, si estás usando pip:

instalación de pip -e.[examples]

(a) Inicie el servidor del agente de ejemplo en una terminal separada:

Si estás usando ultravioleta:

ejemplos de ejecución uv/tshirt_store_agent

Si no:

ejemplos de Python/tshirt_store_agent

Esto iniciará el agente en http://localhost:10001.

(b) Configure Rogue en la interfaz de usuario para que apunte al agente de ejemplo:

URL del agente: http://localhost:10001 Autenticación: sin autenticación

(c) Ejecute la evaluación y observe cómo Rogue prueba las políticas del agente de camisetas.

Puede utilizar el modo TUI (uvx rogue-ai) o Web UI (uvx rogue-ai ui).

Dónde encaja Rogue: casos de uso prácticos

Refuerzo de seguridad y cumplimiento: valide el manejo de PII/PHI, el comportamiento de rechazo, la prevención de fugas de secretos y las políticas de dominio regulado con evidencia anclada en transcripciones. Agentes de soporte y comercio electrónico: aplique descuentos controlados por OTP, reglas de reembolso, escalamiento basado en SLA y corrección del uso de herramientas (búsqueda de pedidos, emisión de boletos) en condiciones adversas y de falla. Agentes de desarrollador/DevOps: evalúe los copilotos de CLI y mod de código para determinar el confinamiento del espacio de trabajo, la semántica de reversión, el comportamiento de límite de velocidad/retroceso y la prevención de comandos inseguros. Sistemas multiagente: Verifique los contratos del planificador↔ejecutor, la negociación de capacidades y la conformidad del esquema sobre A2A; evaluar la interoperabilidad entre marcos heterogéneos. Monitoreo de regresión y deriva: suites nocturnas contra nuevas versiones de modelos o cambios rápidos; detectar cambios de comportamiento y aplicar criterios de aprobación críticos para las políticas antes del lanzamiento.

¿Qué es exactamente Rogue y por qué debería importarle a los equipos de desarrollo de agentes?

Rogue es un marco de pruebas de un extremo a otro diseñado para evaluar el rendimiento, el cumplimiento y la confiabilidad de los agentes de IA. Rogue sintetiza el contexto empresarial y el riesgo en pruebas estructuradas con objetivos, tácticas y criterios de éxito claros. EvaluatorAgent ejecuta conversaciones con protocolo correcto en modos rápidos de un solo turno o profundos de confrontación de múltiples turnos. Trae tu propio modelo o deja que Rogue utilice los jueces SLM personalizados de Qualifire para realizar las pruebas. Observabilidad de la transmisión y artefactos deterministas: transcripciones en vivo, veredictos de aprobación/rechazo, fundamentos vinculados a la duración de las transcripciones, tiempos y linaje del modelo/versión.

Debajo del capó: cómo se construye Rogue

Rogue opera en una arquitectura cliente-servidor:

Servidor Rogue: Contiene la lógica de evaluación central Interfaces de cliente: Múltiples interfaces que se conectan al servidor: TUI (Terminal UI): Interfaz de terminal moderna construida con Go y Bubble Tea Web UI: Interfaz web basada en Gradio CLI: Interfaz de línea de comandos para evaluación automatizada y CI/CD

Esta arquitectura permite patrones de uso e implementación flexibles, donde el servidor puede ejecutarse de forma independiente y varios clientes pueden conectarse a él simultáneamente.

Resumen

Rogue ayuda a los equipos de desarrolladores a probar el comportamiento de los agentes tal como se ejecuta realmente en producción. Convierte las políticas escritas en escenarios concretos, ejercita esos escenarios en A2A y registra lo que sucedió con transcripciones que puedes auditar. El resultado es una señal clara y repetible que puede utilizar en CI/CD para detectar rupturas y regresiones de políticas antes de que se envíen.

Gracias al equipo de Qualifire por el liderazgo intelectual y los recursos para este artículo. El equipo de Qualifire ha apoyado este contenido/artículo.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.