Esta investigación de IA propone un sistema inmune de agente de IA para la ciberseguridad adaptativa: 3.4 × contención más rápida con

¿Puede su perfil de apilamiento de seguridad de IA, razón y neutralizar una amenaza de seguridad en vivo en ~ 220 ms, sin un viaje de ida y vuelta central? Un equipo de investigadores de Google y de la Universidad de Arkansas en Little Rock, unan un “sistema inmunitario” de seguridad cibernética de agente construida a partir de agentes livianos y autónomos de IA sidecar colocados con cargas de trabajo (pods Kubernetes, API Gateways, Edge Services). En lugar de exportar telemetría sin procesar a un SIEM y esperar clasificadores lotes, cada agente aprende líneas de base de comportamiento locales, evalúa anomalías utilizando inteligencia federada y aplica mitigaciones de menos privilegios directamente en el punto de ejecución. En una simulación nativa de nube controlada, este bucle de borde redujo la decisión a la mitigación de ~ 220 ms (≈3.4 × más rápido que las tuberías centralizadas), logró F1 ≈ 0.89, y mantuvo la sobrecarga del host bajo el 10% de la CPU/RAM, evidente que la detección colapsante y la información en el plano de carga de trabajo pueden generar velocidad y fidelidad sin recursos materiales.

https://arxiv.org/abs/2509.20640

¿Qué significa “Perfil → Razón → Neutralizar” a nivel primitivo?

Perfil. Los agentes se implementan como sidecars/demonios junto con microservicios y puertas de enlace API. Construyen huellas dactilares de comportamiento a partir de trazas de ejecución, rutas SYScall, secuencias de llamadas API y flujos entre servicios. Esta línea de base local se adapta a pods de corta duración, implementos rodantes y autoscalados, condiciones que rutinariamente rompen los controles del perímetro y las listas estáticas. El perfil no es solo un umbral en los recuentos; Conserva características estructurales (orden, sincronización, conjunto de pares) que permiten la detección de desviaciones de tipo cero. El equipo de investigación enmarca esto como una base continua y consciente del contexto a través de las capas de ingestión y detección para que se aprenda “normal” por carga de trabajo y por límite de identidad.

Razón. Cuando aparece una anomalía (por ejemplo, una explosión inusual de cargas de alta entropía de un director de bajo costo o un gráfico de llamadas API nunca antes vistos), el agente local combina puntajes de anomalía con inteligencia federada: indicadores cortados y deltas del modelo aprendidos por los compañeros: producir un riesgo estimado. El razonamiento está diseñado para ser primero: el agente decide sin un viaje de ida y vuelta a un juez central, y la decisión de confianza es continua en lugar de una puerta de roles estática. Esto se alinea con cero ajuste (la identidad y el contexto se evalúan en cada solicitud, no solo en el inicio de la sesión, y reduce los cuellos de botella centrales que agregan segundos de latencia bajo carga.

Neutralizar. Si el riesgo excede un umbral sensible al contexto, el agente ejecuta un control local inmediato asignado a acciones menos privilegiadas: cuarentena el contenedor (pausa/aislado), rota una credencial, aplique un límite de velocidad, revoca un token o apretan una política por ruta. La ejecución está escrita en tiendas de políticas y se registra con una justificación legible por humanos para la auditoría. La ruta rápida aquí es el diferenciador central: en la evaluación informada, la ruta autónoma se desencadena en ~ 220 ms versus ~ 540–750 ms para las tuberías centralizadas de ML o actualizaciones de firewall, que se traduce en una reducción de latencia de ~ 70% y menos oportunidades para el movimiento lateral durante la ventana de decisión.

¿De dónde vienen los números y cuáles fueron las líneas de base?

El equipo de investigación evaluó la arquitectura en una simulación nativa de Kubernetes que abarca el abuso de API y los escenarios de movimiento lateral. Contra dos líneas de base típicas: (i) tuberías de reglas estáticas y (ii) un clasificador capacitado por lotes, el enfoque de agente informa la precisión 0.91 / recuperación 0.87 / F1 0.89, mientras que las líneas de base aterrizan cerca de F1 0.64 (reglas) y F1 0.79 (ml de línea de base). La latencia de decisión cae a ~ 220 ms para la aplicación local, en comparación con ~ 540-750 ms para rutas centralizadas que requieren coordinación con un controlador o firewall externo. La sobrecarga de recursos en los servicios de host se mantiene por debajo del 10% en CPU/RAM.

https://arxiv.org/abs/2509.20640

¿Por qué esto importa esto para la ingeniería de la confianza cero, no solo los gráficos de investigación?

Zero Trust (ZT) requiere una verificación continua en el tiempo de solicitud utilizando identidad, dispositivo y contexto. En la práctica, muchas implementaciones de ZT aún diferen a los evaluadores de políticas centrales, por lo que heredan la latencia del plano de control y las patologías de cola bajo carga. Al mover la inferencia de riesgos y la aplicación del borde autónomo, la arquitectura convierte la postura ZT de la política periódica en un conjunto de controladores autónomos y de aprendizaje continuo que ejecutan cambios de menor privilegio localmente y luego sincronizan el estado. Ese diseño reduce simultáneamente el tiempo medio de contener (MTTC) y mantiene las decisiones cerca del radio de explosión, lo que ayuda cuando los lúpulos inter-POD se miden en milisegundos. El equipo de investigación también formaliza el intercambio federado para distribuir indicadores/modelos de deltas sin un movimiento pesado de datos crudos, que es relevante para los límites de privacidad y los SaaS de múltiples inquilinos.

¿Cómo se integra con las pilas existentes: Kubernetes, API e Identity?

Operacionalmente, los agentes se ubican conjuntamente con cargas de trabajo (demonio sidecar o nodo). En Kubernetes, pueden enganchar la telemetría de nivel CNI para características de flujo, eventos de tiempo de ejecución de contenedores para señales de nivel de proceso y tramos Envoy/Nginx en las puertas de enlace API para gráficos de solicitud. Para la identidad, consumen reclamos de su IDP y calculan los puntajes de confianza continuos que tienen en cuenta el comportamiento y el entorno recientes (p. Ej., Geo-riesgo, postura del dispositivo). Las mitigaciones se expresan como primitivas ideempotentes (actualizaciones de micro-política de red, revocación de tokens, cuotas por ruta), por lo que son sencillos para retroceder o apretarse incrementalmente. El bucle de control de la arquitectura (sentido → razón → ACT → Aprender) es estrictamente basado en retroalimentación y admite tanto humanos en el bucle (ventanas de políticas, puertas de aprobación para cambios de alto radio) como autonomía para acciones de bajo impacto.

¿Cuáles son las barandillas de gobernanza y seguridad?

La velocidad sin auditabilidad no es de arranque en entornos regulados. El equipo de investigación enfatiza los registros de decisión explicables que capturan qué señales y umbrales condujeron a la acción, con artefactos de política/modelo firmados y versados. También analiza los modos de preservación de la privacidad, manteniendo los datos confidenciales locales al compartir actualizaciones del modelo; Las actualizaciones diferencialmente privadas se mencionan como una opción en regímenes más estrictos. Para la seguridad, el sistema admite anulación/reversión y despliegue de escenificación (por ejemplo, nuevas plantillas de mitigación canarying en espacios de nombres no críticos). Esto es consistente con un trabajo de seguridad más amplio sobre amenazas y barandillas para sistemas de agente; Si su organización está adoptando tuberías de múltiples agentes, verifique los modelos de amenazas actuales para la autonomía del agente y el uso de herramientas.

¿Cómo se traducen los resultados informados en la postura de producción?

La evaluación es una simulación nativa de nube de 72 horas con comportamientos inyectados: patrones de uso indebido de API, movimiento lateral y desviaciones de tipo cero de día. Los sistemas reales agregarán señales más desordenadas (por ejemplo, sidecars ruidosos, redes múltiples de clúster, complementos CNI mixtos), que afecta tanto la detección como el tiempo de aplicación. Dicho esto, la estructura de ruta rápida, decisión local + acto local, es topología-agnóstica y debe preservar las ganancias de latencia de orden de magnitud siempre que las mitigaciones se asignen a las primitivas disponibles en su malla/tiempo de ejecución. Para la producción, comience con los agentes solo de observación para construir líneas de base, luego active las mitigaciones para acciones de bajo riesgo (abrazaderas de cuotas, revocas de token), luego comple controles de alto riesgo-radio (corte de red, cuarentena de contenedores) detrás de las ventanas de políticas hasta que las métricas de confianza/cobertura son verdes.

¿Cómo se encuentra esto en el paisaje más amplio de seguridad de agente?

Existe una creciente investigación sobre la obtención de sistemas de agentes y el uso de flujos de trabajo de agentes para tareas de seguridad. El equipo de investigación discutido aquí es sobre la defensa a través de la autonomía del agente cerca de las cargas de trabajo. Paralelamente, otro trabajo aborda el modelado de amenazas para la IA agente, el uso seguro del protocolo A2A y las pruebas de vulnerabilidad de la agente. Si adopta la arquitectura, combínela con un modelo actual de amenaza de seguridad de agente y un arnés de prueba que ejerce límites de uso de herramientas y seguridad de la memoria de los agentes.

Resultados comparativos (simulación de Kubernetes)

Reglas métricas PipelineBaseline ML (clasificador por lotes) Marco de agente (Autonomía de borde) Precisión0.710.830.91Recall0.580.760.87f10.640.790.89Decision-to Mitency Latency ~ 750 ms ~ 540 ms ~ 220 mshost sobrecargado (CPU/RAM) Moderatemoderate <10% de 10%%%%%%%%%%%%%%%%%%

Control de llave

Edge-First “Sistema inmunitario de ciberseguridad”. Los agentes livianos sidecar/daemon ai colocados con cargas de trabajo (pods de Kubernetes, puertas de enlace API) aprenden huellas digitales de comportamiento, deciden localmente y aplican mitigaciones de menos privilegios sin viajes de ida y vuelta. Rendimiento medido. La decisión a la mitigación informada es de ~ 220 ms, aproximadamente 3.4 × más rápida que las tuberías centralizadas (≈540–750 ms), con F1 ≈ 0.89 (P≈0.91, R≈0.87) en una simulación de Kubernetes. Bajo costo operativo. La sobrecarga del huésped sigue siendo <10% de CPU/RAM, lo que hace que el enfoque sea práctico para microservicios y nodos de borde. Perfil → Razón → Nutralizar el bucle. Los agentes continuamente la actividad normal (perfil), fusionan las señales locales con inteligencia federada para la puntuación de riesgos (razón) y aplican controles inmediatos y reversibles como cuarentena de contenedores, rotación de tokens y límites de velocidad (neutralizar). Alineación de confianza cero. Las decisiones son continuas y conscientes del contexto (identidad, dispositivo, GEO, carga de trabajo), reemplazando las puertas de roles estáticas y reduciendo el tiempo de permanencia y el riesgo de movimiento lateral. Gobierno y seguridad. Las acciones se registran con fundamentos explicables; Las políticas/modelos están firmadas y versionadas; Las mitigaciones de radio de alto blasto se pueden establecer detrás de los despliegos humanos en el bucle y escenificados.

Resumen

Trate la defensa como un plano de control distribuido hecho de perfiles, razonamiento y agentes neutralizantes que actúan donde vive la amenaza. El perfil informado: ~ 220 ms acciones, ≈ 3.4 × más rápido que las líneas de base centralizadas, F1 ≈ 0.89, <10% de sobrecarga) es consistente con lo que esperaría cuando elimina el lúpulo central y deja que la autonomía maneje las mitigaciones de menos privilegios localmente. Se alinea con la verificación continua de Zero Trust y ofrece a los equipos una ruta práctica para las operaciones de autoestabilización: aprender desviaciones normales de bandera con el contexto federado y contener temprano, antes de que el movimiento lateral supera su plano de control.

Consulte el papel y la página de GitHub. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial