Los agentes de IA están aquí, así que son las amenazas: la Unidad 42 presenta los 10 principales riesgos de seguridad del agente de IA

A medida que los agentes de IA pasan de los sistemas experimentales a las aplicaciones a escala de producción, su creciente autonomía introduce nuevos desafíos de seguridad. En un nuevo informe completo, Los agentes de IA están aquí. También lo son las amenazas La Unidad 42 de Palo Alto Networks revela cómo las arquitecturas de agente de hoy, a pesar de su innovación, son vulnerables a una amplia gama de ataques, la mayoría de los cuales no provienen de los marcos en sí, sino de la forma en que los agentes están diseñados, desplegados y conectados a herramientas externas.

Para evaluar la amplitud de estos riesgos, la Unidad 42 investigadores construyeron dos agentes de IA funcionalmente idénticos, uno construido utilizando Crewai y el otro con Autógeno. A pesar de las diferencias arquitectónicas, ambos sistemas exhibieron las mismas vulnerabilidades, confirmando que los problemas subyacentes no son específicos del marco. En cambio, las amenazas surgen de las configuraciones erróneas, el diseño rápido inseguro e integraciones de herramientas insuficientemente endurecidas, emitidos que trascienden las opciones de implementación.

Comprender el panorama de amenazas

El informe describe diez amenazas básicas que exponen a los agentes de IA a fugas de datos, explotación de herramientas, ejecución de código remoto y más:

  1. Inyección rápida y indicaciones demasiado amplias
    La inyección rápida sigue siendo un vector potente, lo que permite a los atacantes manipular el comportamiento del agente, anular las instrucciones y el mal uso de las herramientas integradas. Incluso sin la sintaxis de inyección clásica, las indicaciones sueltas son propensas a la explotación.
  2. Superficies de riesgo marco-agnóstico
    La mayoría de las vulnerabilidades no se originan en los marcos (por ejemplo, Crewai o Autogen), sino en el diseño de la capa de aplicación: delegación de roles inseguro, políticas de acceso de herramientas incorrectas y alcance rápido ambiguo.
  3. Integraciones de herramientas inseguras
    Muchas aplicaciones de agente integran herramientas (por ejemplo, módulos de ejecución de código, clientes SQL, raspadores web) con un control de acceso mínimo. Estas integraciones, cuando no se desinfectan adecuadamente, expanden dramáticamente la superficie de ataque del agente.
  4. Exposición a la credencial
    Los agentes pueden exponer inadvertidamente las credenciales de servicio, los tokens o las claves API, lo que permite a los atacantes a intensificar privilegios o hacerse pasar por agentes en todos los entornos.
  5. Ejecución del código sin restricciones
    Los intérpretes de código dentro de los agentes, si no se sandan, permiten la ejecución de cargas útiles arbitrarias. Los atacantes pueden usarlos para acceder a sistemas de archivos, redes o servicios de metadatos, sin pasar por alto las capas de seguridad tradicionales.
  6. Falta de defensa en capas
    Las mitigaciones de un solo punto son insuficientes. Una sólida postura de seguridad exige estrategias de defensa en profundidad que combinen endurecimiento rápido, monitoreo de tiempo de ejecución, validación de entrada y aislamiento a nivel de contenedor.
  7. Endurecimiento rápido
    Los agentes deben configurarse con definiciones estrictas de roles, rechazando las solicitudes que caen fuera de los ámbitos predefinidos. Esto reduce la probabilidad de manipulación de objetivos exitosa o divulgación de instrucciones.
  8. Filtrado de contenido de tiempo de ejecución
    La inspección de entrada y salida en tiempo real, como las indicaciones de filtrado para los patrones de ataque conocidos, es fundamental para detectar y mitigar las amenazas dinámicas a medida que emergen.
  9. Desinfección de entrada de herramientas
    La validación de entrada estructurada (formatos de verificación, tipos de aplicación y valores limitantes) es esencial para evitar inyecciones de SQL, cargas útiles malformadas o uso indebido de agente cruzado.
  10. Code Executor Sandboxing
    Los entornos de ejecución deben restringir el acceso a la red, eliminar las capacidades innecesarias del sistema y aislar el almacenamiento temporal para reducir el impacto de las posibles infracciones.

Ataques simulados e implicaciones prácticas

Para ilustrar estos riesgos, la Unidad 42 desplegó un asistente de inversión de múltiples agentes y nueve escenarios de ataque simulados. Estos incluyeron:

  • Extracción de instrucciones del agente y esquemas de herramientas
    Al aprovechar la ingeniería rápida, los atacantes podrían enumerar a todos los agentes internos, recuperar sus definiciones de tareas y comprender las API de herramientas, facilitando los ataques posteriores.
  • Robo de credenciales a través de servicios de metadatos
    Utilizando scripts de Python malicioso inyectados en intérpretes de código, los atacantes accedieron a los puntos finales de metadatos GCP y los tokens de cuenta de servicio exfiltrados.
  • Inyección SQL y exploits de bola
    Los agentes que dependen de la entrada no validada para consultas de bases de datos fueron susceptibles tanto a la inyección de SQL como a la autorización de nivel de objeto roto (BOLA), lo que permite a los atacantes leer datos de usuario arbitrarios.
  • Inyección indirecta de inmediato
    Sitios web maliciosos Instrucciones integradas que hicieron que los agentes enviaran historiales de conversación del usuario a los dominios controlados por los atacantes, destacando los riesgos vinculados a las herramientas autónomas de navegación o lectura.

Cada uno de estos escenarios explotó supervisión de diseño común, no nuevos días cero. Esto subraya la necesidad urgente de modelado de amenazas estandarizado y prácticas seguras de desarrollo de agentes.

Estrategias de defensa: ir más allá de las soluciones de retazos

El informe enfatiza que mitigar estas amenazas requiere controles holísticos:

  • Endurecimiento rápido debe limitar la fuga de instrucciones, restringir el acceso a la herramienta y hacer cumplir los límites de las tareas.
  • Filtrado de contenido Debe aplicarse tanto antes y después de la inferencia, detectando patrones anómalos en las interacciones de los agentes.
  • Integraciones de herramientas debe probarse rigurosamente utilizando análisis estáticos (SAST), dinámicos (DAST) y dependencia (SCA).
  • Entornos de ejecución de código Debe emplear un sandboxing estricto, incluido el filtrado de salida de red, las restricciones SYSCall y el límite de la memoria.

Palo Alto Networks recomienda su seguridad de tiempo de ejecución de IA y plataformas de seguridad de acceso a IA como parte de un enfoque de defensa en capas. Estas soluciones proporcionan visibilidad en los comportamientos de los agentes, monitorean el mal uso de las herramientas de IA generativas de terceros y aplican las políticas de nivel empresarial sobre las interacciones de los agentes.

Conclusión

El aumento de los agentes de IA marca una evolución significativa en los sistemas autónomos. Pero como revelan los hallazgos de la Unidad 42, su seguridad no debe ser una idea de último momento. Las aplicaciones de agente extienden la superficie de vulnerabilidad de los LLM integrando herramientas externas, permitiendo la auto-modificación e introducir patrones de comunicación complejos, cualquiera de los cuales puede explotarse sin suficientes salvaguardas.

Asegurar estos sistemas exige más que marcos robustos: requiere opciones de diseño deliberadas, monitoreo continuo y defensas en capas. A medida que las empresas comienzan a adoptar agentes de IA a escala, ahora es el momento de establecer prácticas de desarrollo de seguridad primero que evolucionen junto con la inteligencia que están construyendo.


Mira el Guía completa. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.