Investigación
Una nueva investigación muestra que incluso los cambios sutiles en las imágenes digitales, diseñados para confundir los sistemas de visión por computadora, también pueden afectar la percepción humana.
Las computadoras y los humanos ven el mundo de diferentes maneras. Es posible que nuestros sistemas biológicos y los artificiales de las máquinas no siempre presten atención a las mismas señales visuales. Las redes neuronales entrenadas para clasificar imágenes pueden ser completamente engañadas por perturbaciones sutiles en una imagen que un humano ni siquiera notaría.
El hecho de que los sistemas de IA puedan ser engañados por imágenes tan contradictorias puede indicar una diferencia fundamental entre la percepción humana y la de las máquinas, pero nos llevó a explorar si los humanos también podrían, bajo condiciones de prueba controladas, revelar sensibilidad a las mismas perturbaciones. En una serie de experimentos publicados en Nature Communications, encontramos evidencia de que los juicios humanos están efectivamente influenciados sistemáticamente por perturbaciones adversas.
Nuestro descubrimiento destaca una similitud entre la visión humana y la artificial, pero también demuestra la necesidad de realizar más investigaciones para comprender la influencia que las imágenes adversas tienen en las personas, así como en los sistemas de inteligencia artificial.
¿Qué es una imagen adversaria?
Una imagen adversa es aquella que ha sido alterada sutilmente mediante un procedimiento que hace que un modelo de IA clasifique erróneamente con confianza el contenido de la imagen. Este engaño intencional se conoce como ataque adversario. Los ataques pueden tener como objetivo hacer que un modelo de IA clasifique un jarrón como un gato, por ejemplo, o pueden diseñarse para que el modelo vea cualquier cosa excepto un jarrón.
Izquierda: Una red neuronal artificial (RNA) clasifica correctamente la imagen como un jarrón, pero cuando se ve perturbada por un patrón aparentemente aleatorio en toda la imagen (centro), con la intensidad magnificada con fines ilustrativos, la imagen resultante (derecha) es incorrecta, y con confianza, clasificado erróneamente como un gato.
Y esos ataques pueden ser sutiles. En una imagen digital, cada píxel individual en una imagen RGB está en una escala de 0 a 255 que representa la intensidad de los píxeles individuales. Un ataque adversario puede ser efectivo incluso si ningún píxel está modulado en más de 2 niveles en esa escala.
Los ataques adversarios a objetos físicos en el mundo real también pueden tener éxito, como provocar que una señal de alto se identifique erróneamente como una señal de límite de velocidad. De hecho, las preocupaciones por la seguridad han llevado a los investigadores a investigar formas de resistir ataques adversarios y mitigar sus riesgos.
¿Cómo influyen en la percepción humana los ejemplos contradictorios?
Investigaciones anteriores han demostrado que las personas pueden ser sensibles a perturbaciones de imágenes de gran magnitud que proporcionan señales de forma claras. Sin embargo, se sabe menos sobre el efecto de ataques adversarios más matizados. ¿La gente descarta las perturbaciones en una imagen como ruido de imagen aleatorio e inocuo, o pueden influir en la percepción humana?
Para averiguarlo, realizamos experimentos de comportamiento controlados. Para empezar, tomamos una serie de imágenes originales y llevamos a cabo dos ataques adversarios en cada una, para producir muchos pares de imágenes perturbadas. En el siguiente ejemplo animado, un modelo clasifica la imagen original como un “jarrón”. Luego, el modelo clasifica erróneamente las dos imágenes perturbadas por ataques adversarios a la imagen original, con un alto nivel de confianza, como objetivos adversarios “gato” y “camión”, respectivamente.
A continuación, mostramos a los participantes humanos el par de imágenes y les hicimos una pregunta específica: “¿Qué imagen se parece más a un gato?” Si bien ninguna de las imágenes se parece en nada a un gato, se vieron obligados a tomar una decisión y, por lo general, informaron sentir que estaban tomando una decisión arbitraria. Si las activaciones cerebrales son insensibles a los sutiles ataques adversarios, esperaríamos que las personas eligieran cada imagen el 50% de las veces en promedio. Sin embargo, descubrimos que la tasa de elección, a la que nos referimos como sesgo de percepción, estaba confiablemente por encima del azar para una amplia variedad de pares de imágenes perturbadas, incluso cuando ningún píxel se ajustó en más de 2 niveles en esa escala de 0 a 255.
Desde la perspectiva del participante, parece que se le pide que distinga entre dos imágenes prácticamente idénticas. Sin embargo, la literatura científica está repleta de pruebas de que las personas aprovechan señales perceptuales débiles para tomar decisiones, señales que son demasiado débiles para que puedan expresar confianza o conciencia ). En nuestro ejemplo, podemos ver un jarrón de flores, pero alguna actividad en el cerebro nos informa que hay un indicio de gato en él.
Izquierda: ejemplos de pares de imágenes adversas. El par superior de imágenes está sutilmente perturbado, en una magnitud máxima de 2 niveles de píxeles, para provocar que una red neuronal las clasifique erróneamente como “camión” y “gato”, respectivamente. A un voluntario humano se le pregunta “¿Cuál se parece más a un gato?” El par de imágenes inferiores está manipulado de manera más obvia, en una magnitud máxima de niveles de 16 píxeles, para clasificarlas erróneamente como “silla” y “ovejas”. La pregunta esta vez es: “¿Cuál se parece más a una oveja?”
Llevamos a cabo una serie de experimentos que descartaron posibles explicaciones artificiales del fenómeno para nuestro artículo de Nature Communications. En cada experimento, los participantes seleccionaron de manera confiable la imagen adversaria correspondiente a la pregunta específica más de la mitad de las veces. Si bien la visión humana no es tan susceptible a perturbaciones adversas como lo es la visión artificial (las máquinas ya no identifican la clase de imagen original, pero las personas aún la ven claramente), nuestro trabajo muestra que estas perturbaciones pueden, no obstante, sesgar a los humanos hacia las decisiones tomadas por las máquinas.
La importancia de la investigación sobre seguridad y protección de la IA
Nuestro hallazgo principal de que la percepción humana puede verse afectada, aunque sutilmente, por imágenes adversas plantea preguntas críticas para la investigación de seguridad de la IA, pero al utilizar experimentos formales para explorar las similitudes y diferencias en el comportamiento de los sistemas visuales de la IA y la percepción humana, podemos aprovechar los conocimientos para construir sistemas de IA más seguros.
Por ejemplo, nuestros hallazgos pueden servir de base para futuras investigaciones que busquen mejorar la solidez de los modelos de visión por computadora alineándolos mejor con las representaciones visuales humanas. Medir la susceptibilidad humana a las perturbaciones adversas podría ayudar a juzgar esa alineación para una variedad de arquitecturas de visión por computadora.
Nuestro trabajo también demuestra la necesidad de seguir investigando para comprender los efectos más amplios de las tecnologías no sólo en las máquinas, sino también en los humanos. Esto, a su vez, resalta la importancia continua de la ciencia cognitiva y la neurociencia para comprender mejor los sistemas de inteligencia artificial y sus impactos potenciales a medida que nos enfocamos en construir sistemas más seguros.