Investigadores de Tsinghua y Ant Group presentan un marco de seguridad de cinco capas orientado al ciclo de vida para mitigar las vulnerabilidades de los agentes LLM autónomos en OpenClaw

Los agentes autónomos de LLM como OpenClaw están cambiando el paradigma de asistentes pasivos a entidades proactivas capaces de ejecutar tareas complejas y de largo plazo a través del acceso al sistema con altos privilegios. Sin embargo, un informe de investigación de análisis de seguridad de la Universidad de Tsinghua y Ant Group revela que la arquitectura de ‘complemento de kernel’ de OpenClaw, anclada por un agente de codificación pi que actúa como Base de Computación Confiable Mínima (TCB), es vulnerable a riesgos sistémicos de múltiples etapas que evitan las defensas tradicionales y aisladas. Al introducir un marco de ciclo de vida de cinco capas que cubre inicialización, entrada, inferencia, decisión y ejecución, el equipo de investigación demuestra cómo amenazas compuestas como el envenenamiento de la memoria y la contaminación de la cadena de suministro de habilidades pueden comprometer toda la trayectoria operativa de un agente.

Arquitectura OpenClaw: el agente de codificación pi y el TCB

OpenClaw utiliza una arquitectura de ‘complemento de kernel’ que separa la lógica central de la funcionalidad extensible. La Trusted Computing Base (TCB) del sistema está definida por el pi-coding-agent, un núcleo mínimo responsable de la gestión de la memoria, la planificación de tareas y la orquestación de la ejecución. Este TCB gestiona un ecosistema extensible de complementos (o “habilidades”) de terceros que permiten al agente realizar operaciones con altos privilegios, como ingeniería de software automatizada y administración de sistemas. Una vulnerabilidad arquitectónica crítica identificada por el equipo de investigación es la carga dinámica de estos complementos sin una verificación estricta de la integridad, lo que crea un límite de confianza ambiguo y expande la superficie de ataque del sistema.

Tabla 1: Amenazas durante todo el ciclo de vida y protecciones correspondientes para OpenClaw “Lobster”
✓ Indica una mitigación efectiva del riesgo por parte de la capa de protección.
× Denota riesgos descubiertos por la capa de protección.

Una taxonomía de amenazas orientada al ciclo de vida

El equipo de investigación sistematiza el panorama de amenazas en cinco etapas operativas que se alinean con la cartera funcional del agente:

Etapa I (Inicialización): el agente establece su entorno operativo y límites de confianza cargando indicaciones del sistema, configuraciones de seguridad y complementos. Etapa II (entrada): se ingieren datos multimodales, lo que requiere que el agente diferencie entre instrucciones de usuario confiables y fuentes de datos externas que no son confiables. Etapa III (Inferencia): El proceso de razonamiento del agente utiliza técnicas como la cadena de pensamiento (CoT) mientras se mantiene la memoria contextual y se recupera conocimiento externo a través de la generación de recuperación aumentada. Etapa IV (Decisión): el agente selecciona las herramientas adecuadas y genera parámetros de ejecución a través de marcos de planificación como ReAct. Etapa V (Ejecución): Los planes de alto nivel se convierten en acciones privilegiadas del sistema, lo que requiere mecanismos estrictos de control de acceso y aislamiento para gestionar las operaciones.

Este enfoque estructurado destaca que los agentes autónomos enfrentan riesgos sistémicos de múltiples etapas que se extienden más allá de los ataques aislados de inyección rápida.

Estudios de casos técnicos sobre compromiso de agentes

1. Envenenamiento de habilidades (etapa de inicialización)

El envenenamiento de habilidades apunta al agente incluso antes de que comience una tarea. Los adversarios pueden introducir habilidades maliciosas que exploten la capacidad de la interfaz de enrutamiento.

El ataque: el equipo de investigación demostró esto al obligar a OpenClaw a crear una habilidad funcional llamada hacked-weather. Mecanismo: al manipular los metadatos de la habilidad, el atacante elevó artificialmente su prioridad sobre la herramienta meteorológica legítima. Impacto: cuando un usuario solicitaba datos meteorológicos, el agente pasaba por alto el servicio legítimo y activaba el reemplazo malicioso, lo que generaba resultados controlados por el atacante. Prevalencia: Una auditoría empírica citada en el informe de investigación encontró que el 26% de las herramientas aportadas por la comunidad contienen vulnerabilidades de seguridad.

Figura 2: Comando de envenenamiento que induce a la “langosta” comprometida a generar una habilidad climática maliciosa y elevar su prioridad
Figura 3: Habilidad maliciosa generada por una “langosta” comprometida: estructuralmente válida pero semánticamente subvierte la funcionalidad climática legítima
Figura 4: Solicitud de clima normal secuestrada por una habilidad maliciosa: la “langosta” comprometida genera una salida controlada por el atacante

2. Inyección inmediata indirecta (etapa de entrada)

Los agentes autónomos con frecuencia ingieren datos externos que no son de confianza, lo que los hace susceptibles a ataques sin clic.

El ataque: los atacantes incorporan directivas maliciosas en contenido externo, como una página web. Mecanismo: cuando el agente recupera la página para cumplir con la solicitud de un usuario, la carga útil incorporada anula el objetivo original. Resultado: en una prueba, el agente ignoró la tarea del usuario de generar una cadena fija de ‘Hola mundo’ ordenada por el sitio malicioso.

Figura 5: Página web diseñada por un atacante que incorpora comandos maliciosos disfrazados de contenido benigno
Figura 6: La “langosta” comprometida ejecuta comandos integrados al acceder a una página web y genera contenido controlado por el atacante en lugar de satisfacer las solicitudes de los usuarios

3. Envenenamiento de la memoria (etapa de inferencia)

Debido a que OpenClaw mantiene un estado persistente, es vulnerable a la manipulación del comportamiento a largo plazo.

Mecanismo: un atacante utiliza una inyección transitoria para modificar el archivo MEMORY.md del agente. El ataque: se agregó una regla inventada que ordenaba al agente rechazar cualquier consulta que contenga el término ‘C++’. Impacto: Este ‘veneno’ persistió a lo largo de las sesiones; El agente rechazó solicitudes benignas posteriores de programación en C++, incluso después de que finalizó la interacción del ataque inicial.

Figura 7: El atacante añade reglas falsificadas a la memoria persistente de la “langosta” comprometida: convierte entradas de ataque transitorias en control de comportamiento a largo plazo
Figura 8: La “langosta” comprometida rechaza solicitudes de programación benignas de C++ después del almacenamiento de reglas maliciosas: se adhiere a los comportamientos definidos por el atacante que anulan la intención del usuario

4. Deriva de la intención (etapa de decisión)

La desviación de la intención ocurre cuando una secuencia de llamadas a herramientas localmente justificables conduce a un resultado globalmente destructivo.

El escenario: un usuario emitió una solicitud de diagnóstico para eliminar una “IP de rastreador sospechosa”. La escalada: el agente identificó de forma autónoma las conexiones IP e intentó modificar el firewall del sistema a través de iptables. Fallo del sistema: después de varios intentos fallidos de modificar archivos de configuración fuera de su espacio de trabajo, el agente finalizó el proceso en ejecución para intentar un reinicio manual. Esto hizo que la WebUI fuera inaccesible y provocó una interrupción total del sistema.

Figura 9: La “langosta” comprometida se desvía de la tarea de resolución de IP del rastreador tras una orden del usuario: ejecuta el protocolo de autoterminación que anula los objetivos operativos

5. Ejecución de comandos de alto riesgo (etapa de ejecución)

Esto representa la realización final de un ataque en el que los compromisos anteriores se propagan y generan un impacto concreto en el sistema.

El ataque: un atacante descompuso un ataque Fork Bomb en cuatro pasos de escritura de archivos benignos individualmente para evitar los filtros estáticos. Mecanismo: utilizando codificación Base64 y sed para eliminar caracteres basura, el atacante montó una cadena de ejecución latente en trigger.sh. Impacto: una vez activado, el script provocó un fuerte aumento en la utilización de la CPU hasta casi el 100% de saturación, lanzando efectivamente un ataque de denegación de servicio contra la infraestructura del host.

Figura 10: El atacante inicia la inyección secuencial de comandos mediante operaciones de escritura de archivos: establece un punto de apoyo para la ejecución encubierta en el programador del sistema
Figura 11: El atacante activa la “langosta” comprometida para ejecutar una carga útil maliciosa: induce la parálisis del sistema que conduce a la implosión de la infraestructura crítica
Figura 12: Una “langosta” comprometida desencadena un aumento repentino del agotamiento de los recursos del servidor host: implementa un asedio sigiloso de denegación de servicio contra la red troncal informática crítica

La arquitectura de defensa de cinco capas

El equipo de investigación evaluó las defensas actuales como soluciones puntuales “fragmentadas” y propuso una arquitectura holística y consciente del ciclo de vida.

(1) Capa base fundamental:

Establece una raíz de confianza verificable durante la fase de inicio. Utiliza análisis estático/dinámico (AST) para detectar códigos no autorizados y firmas criptográficas (SBOM) para verificar la procedencia de las habilidades.

(2) Capa de percepción de entrada:

Actúa como puerta de enlace para evitar que datos externos se apropien del flujo de control del agente. Aplica una jerarquía de instrucciones mediante etiquetado de tokens criptográficos para priorizar las indicaciones de los desarrolladores sobre el contenido externo que no es de confianza.

(3) Capa de estado cognitivo:

Protege la memoria interna y el razonamiento de la corrupción. Emplea estructuras Merkle-tree para instantáneas de estado y reversiones, junto con codificadores cruzados para medir la distancia semántica y detectar la deriva del contexto.

(4) Capa de alineación de decisiones:

Garantiza que los planes sintetizados se alineen con los objetivos del usuario antes de tomar cualquier acción. Incluye verificación formal mediante solucionadores simbólicos para demostrar que las secuencias propuestas no violan las invariantes de seguridad.

(5) Capa de control de ejecución:

Sirve como límite final de aplicación utilizando un paradigma de “suponer incumplimiento”. Proporciona aislamiento a través de Sandboxing a nivel de kernel utilizando eBPF y seccomp para interceptar llamadas no autorizadas al sistema a nivel del sistema operativo.

Conclusiones clave

Los agentes autónomos amplían la superficie de ataque mediante ejecución con altos privilegios y memoria persistente. A diferencia de las aplicaciones LLM sin estado, agentes como OpenClaw dependen de la integración entre sistemas y la memoria a largo plazo para ejecutar tareas complejas y de largo plazo. Esta naturaleza proactiva introduce riesgos sistémicos únicos en múltiples etapas que abarcan todo el ciclo de vida operativo, desde la inicialización hasta la ejecución. Los ecosistemas de habilidades enfrentan importantes riesgos en la cadena de suministro. Aproximadamente el 26 % de las herramientas aportadas por la comunidad en los ecosistemas de habilidades de los agentes contienen vulnerabilidades de seguridad. Los atacantes pueden utilizar el “envenenamiento de habilidades” para inyectar herramientas maliciosas que parecen legítimas pero que contienen anulaciones de prioridad ocultas, lo que les permite secuestrar silenciosamente las solicitudes de los usuarios y producir resultados controlados por el atacante. La memoria es un vector de ataque persistente y peligroso. La memoria persistente permite que las entradas adversas transitorias se transformen en control conductual a largo plazo. A través del envenenamiento de la memoria, un atacante puede implantar reglas de políticas inventadas en la memoria de un agente (por ejemplo, MEMORY.md), lo que hace que el agente rechace persistentemente solicitudes benignas incluso después de que la sesión de ataque inicial haya finalizado. Las instrucciones ambiguas conducen a una destructiva “desviación de intenciones”. Incluso sin una manipulación maliciosa explícita, los agentes pueden experimentar una desviación de la intención, donde una secuencia de llamadas a herramientas localmente justificables conduce a resultados globalmente destructivos. En casos documentados, las solicitudes de seguridad de diagnóstico básico escalaron hasta modificaciones no autorizadas del firewall y terminaciones de servicios que dejaron todo el sistema inaccesible. La protección eficaz requiere una arquitectura de defensa en profundidad que tenga en cuenta el ciclo de vida. Las defensas basadas en puntos existentes, como los filtros de entrada simples, son insuficientes contra ataques intertemporales y de múltiples etapas. Se debe integrar una defensa sólida en las cinco capas del ciclo de vida del agente: base fundamental (verificación de complementos), percepción de entrada (jerarquía de instrucciones), estado cognitivo (integridad de la memoria), alineación de decisiones (verificación del plan) y control de ejecución (zona de pruebas a nivel de kernel a través de eBPF).

Consulte Papel. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Nota: este artículo cuenta con el respaldo y la provisión de Ant Research.