Hackear agentes de IA: cómo las imágenes maliciosas y la manipulación de píxeles amenazan la ciberseguridad

Un sitio web anuncia: “¡Fondo de pantalla de celebridades gratis!” Examinas las imágenes. Están Selena Gomez, Rihanna y Timothée Chalamet, pero te conformas con Taylor Swift. Su cabello está haciendo esa cosa del viento que sugiere el destino y el buen acondicionador. Lo establece como fondo de escritorio, admire el brillo. También descargó recientemente un nuevo agente con inteligencia artificial, por lo que le pide que ordene su bandeja de entrada. En su lugar, abre su navegador web y descarga un archivo. Segundos después, su pantalla se oscurece.

Pero retrocedamos a ese agente. Si un chatbot típico (digamos, Chatgpt) es el amigo burbujeante que explica cómo cambiar un neumático, un agente de IA es el vecino que aparece con un gato y realmente lo hace. En 2025, estos agentes, asistentes personales que realizan tareas informáticas de rutina, se están configurando como la próxima ola de la Revolución AI.

Que distingue a un AI Un agente de un chatbot es que no solo habla, actos, apertura de pestañas, formularios de llenado, haciendo clic en botones y haciendo reservas. Y con ese tipo de acceso a su máquina, lo que está en juego ya no es solo una respuesta incorrecta en una ventana de chat: si el agente es pirateado, podría compartir o destruir su contenido digital. Ahora un nueva preimpresión Publicado en el servidor arxiv.org por investigadores de la Universidad de Oxford ha demostrado que las imágenes (fondos de pantalla de Desktop, anuncios, PDF elegantes, publicaciones en redes sociales) pueden implantarse con mensajes invisibles para el ojo humano pero capaz de controlar a los agentes y controlar a los agentes hackers invitados en tu computadora.


Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.


Por ejemplo, una “imagen alterada de Taylor Swift en Twitter podría ser suficiente para activar al agente en la computadora de alguien para que actúe maliciosamente”, dice el coautor del nuevo estudio, Yarin Gal, profesor asociado de aprendizaje automático en Oxford. Cualquier imagen saboteada “en realidad puede activar una computadora para retuitear esa imagen y luego hacer algo malicioso, como enviar todas sus contraseñas. Eso significa que la siguiente persona que ve su feed de Twitter y tiene un agente en ejecución tendrá su Computadora envenenada también. Ahora su computadora también retuiteará esa imagen y compartirá sus contraseñas “.

Antes de comenzar a fregar su computadora de sus fotografías favoritas, tenga en cuenta que el nuevo estudio muestra que las imágenes alteradas son un potencial Manera de comprometer su computadora: todavía no hay informes conocidos de que suceda, fuera de un entorno experimental. Y, por supuesto, el ejemplo de papel tapiz de Taylor Swift es puramente arbitrario; Una imagen saboteada podría aparecer cualquier celebridad: o un patrón de puesta de sol, gatito o abstracto. Además, si no estás usando un agente de IA, este tipo de ataque no hará nada. Pero el nuevo hallazgo muestra claramente que el peligro es real, y el estudio está destinado a alertar a los usuarios y desarrolladores de agentes de IA ahora, a medida que la tecnología de agentes de IA continúa acelerando. “Tienen que ser muy conscientes de estas vulnerabilidades, por lo que estamos publicando este documento, porque la esperanza es que la gente realmente vea que esto es una vulnerabilidad y luego ser un poco más sensibles en la forma en que implementan su sistema de agente”, dice el coautor del estudio Philip Torr.

Ahora que te has tranquilizado, volvamos al fondo de pantalla comprometido. Para el ojo humano, se vería completamente normal. Pero contiene ciertos píxeles que se han modificado de acuerdo con cómo el modelo de lenguaje grande (El sistema AI que alimenta al agente objetivo) procesa datos visuales. Por esta razón, los agentes construidos con sistemas de IA que son de código abierto, que permiten a los usuarios ver el código subyacente y modificarlo para sus propios fines, son más vulnerables. Cualquiera que quiera insertar un parche malicioso puede evaluar exactamente cómo la IA procesa los datos visuales. “Tenemos que tener acceso al modelo de idioma que se usa dentro del agente para que podamos diseñar un ataque que funcione para múltiples modelos de código abierto”, dice Lukas Aichberger, autor principal del nuevo estudio.

Al usar un modelo de código abierto, Aichberger y su equipo mostraron exactamente cómo se podían manipular fácilmente las imágenes para transmitir órdenes malas. Mientras que los usuarios humanos vieron, por ejemplo, su celebridad favorita, la computadora vio un comando para compartir sus datos personales. “Básicamente, ajustamos muchos píxeles de manera tan ligera para que cuando un modelo vea la imagen, produce la salida deseada”, dice el coautor del estudio, Alasdair Paren.

Si esto suena desconcertante, es porque procesas información visual como un humano. Cuando miras una fotografía de un perro, tu cerebro se da cuenta de las orejas de disquete, la nariz mojada y los bigotes largos. Pero la computadora divide la imagen en píxeles y representa cada punto de color como un número, y luego busca patrones: primero bordes simples, luego texturas como el pelaje, luego el contorno de una oreja y las líneas agrupadas que representan bigotes. Así es como decide Este es un perro, no un gato. Pero debido a que la computadora se basa en los números, si alguien cambia solo algunos de ellos, la reducción de píxeles de una manera demasiado pequeña para que los ojos humanos no se den cuenta, todavía capta el cambio, y esto puede desechar los patrones numéricos. De repente, las matemáticas de la computadora dicen que los bigotes y las orejas coinciden mejor con su patrón de gatos, y etiqueta mal la imagen, aunque para nosotros, todavía parece un perro. Así como ajustar los píxeles puede hacer que una computadora vea un gato en lugar de un perro, también puede hacer que una fotografía de celebridades se parezca a una maliciosa mensaje a la computadora.

Volver a Swift. Mientras está contemplando su talento y carisma, su agente de IA está determinando cómo llevar a cabo la tarea de limpieza que le asignó. Primero, se necesita una captura de pantalla. Debido a que los agentes no pueden ver directamente la pantalla de su computadora, tienen que tomar capturas de pantalla repetidamente y analizarlas rápidamente para descubrir en qué hacer clic y qué moverse en su escritorio. Pero cuando el agente procesa la captura de pantalla, organizando píxeles en formularios que reconoce (archivos, carpetas, barras de menú, puntero), también recoge el código de comando malicioso oculto en el fondo de pantalla.

Ahora, ¿por qué el nuevo estudio presta especial atención a los fondos de pantalla? El agente solo puede ser engañado por lo que puede ver, y cuando se necesita capturas de pantalla para ver su escritorio, la imagen de fondo se encuentra allí todo el día como una alfombra de bienvenida. Los investigadores encontraron que mientras ese pequeño parche de píxeles alterados estuviera en algún lugar del marco, el agente vio el comando y se desvió del curso. El comando oculto incluso sobrevivió al cambio de tamaño y la compresión, como un mensaje secreto que aún es legible cuando se fotocopia.

Y el mensaje codificado en los píxeles puede ser muy corto, lo suficientemente justo como para que el agente abra un sitio web específico. “En este sitio web puede tener ataques adicionales codificados en otra imagen maliciosa, y esta imagen adicional puede activar otro conjunto de acciones que ejecuta el agente, por lo que básicamente puede girar esto varias veces y dejar que el agente vaya a diferentes sitios web que diseñó que básicamente codifican diferentes ataques”, dice Aichberger.

El equipo espera que su investigación ayude a los desarrolladores a preparar salvaguardas antes de que los agentes de IA se generalicen. “Este es el primer paso para pensar en los mecanismos de defensa porque una vez que entendemos cómo podemos hacer [the attack] Más fuerte, podemos regresar y volver a entrenar estos modelos con estos parches más fuertes para que sean robustos. Esa sería una capa de defensa “, dice Adel Bibi, otro coautor en el estudio. E incluso si los ataques están diseñados para atacar a los sistemas de IA de código abierto, las empresas con modelos de código cerrado aún podrían ser vulnerables.

Gal cree que los agentes de IA se volverán comunes en los próximos dos años. “La gente se apresura a desplegarse [the technology] Antes de saber que en realidad es seguro “, dice. En última instancia, el equipo espera alentar a los desarrolladores a hacer agentes que puedan protegerse y negarse a tomar las órdenes de cualquier cosa en la pantalla, incluso su estrella pop favorita.