Mit Faces In Things 0.jpg

En 1994, la diseñadora de joyas de Florida Diana Duyser descubrió lo que creía que era la imagen de la Virgen María en un sándwich de queso asado, que conservó y luego subastó por 28.000 dólares. Pero, ¿cuánto entendemos realmente sobre la pareidolia, el fenómeno de ver caras y patrones en objetos cuando en realidad no existen?

un nuevo estudiar del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT profundiza en este fenómeno, presentando un extenso conjunto de datos etiquetados por humanos de 5.000 imágenes pareidólicas, superando con creces las colecciones anteriores. Utilizando este conjunto de datos, el equipo descubrió varios resultados sorprendentes sobre las diferencias entre la percepción humana y la de las máquinas, y cómo la capacidad de ver caras en una tostada podría haber salvado la vida de sus parientes lejanos.

«La pareidolia facial ha fascinado a los psicólogos durante mucho tiempo, pero ha sido en gran medida inexplorada en la comunidad de visión por computadora», dice Mark Hamilton, estudiante de doctorado en ingeniería eléctrica e informática del MIT, afiliado a CSAIL e investigador principal del trabajo. «Queríamos crear un recurso que pudiera ayudarnos a comprender cómo tanto los humanos como los sistemas de inteligencia artificial procesan estos rostros ilusorios».

Entonces, ¿qué revelaron todas estas caras falsas? Por un lado, los modelos de IA no parecen reconocer rostros pareidólicos como lo hacemos nosotros. Sorprendentemente, el equipo descubrió que no fue hasta que entrenaron algoritmos para reconocer rostros de animales que mejoraron significativamente en la detección de rostros pareidólicos. Esta conexión inesperada sugiere un posible vínculo evolutivo entre nuestra capacidad de detectar rostros de animales (crucial para la supervivencia) y nuestra tendencia a ver rostros en objetos inanimados. «Un resultado como este parece sugerir que la pareidolia podría no surgir del comportamiento social humano, sino de algo más profundo: como detectar rápidamente un tigre al acecho, o identificar en qué dirección mira un ciervo para que nuestros ancestros primordiales pudieran cazar», dice Hamilton.

Una fila de cinco fotografías de rostros de animales encima de cinco fotografías de objetos inanimados que parecen rostros.

Otro descubrimiento intrigante es lo que los investigadores llaman la «Zona Ricitos de Oro de la Pareidolia», una clase de imágenes en las que es más probable que se produzca la pareidolia. «Existe un rango específico de complejidad visual en el que tanto los humanos como las máquinas tienen más probabilidades de percibir rostros en objetos que no son rostros», dice William T. Freeman, profesor de ingeniería eléctrica e informática del MIT e investigador principal del proyecto. “Demasiado simple y no hay suficientes detalles para formar una cara. Demasiado complejo y se convierte en ruido visual”.

Para descubrir esto, el equipo desarrolló una ecuación que modela cómo las personas y los algoritmos detectan rostros ilusorios. Al analizar esta ecuación, encontraron un claro «pico pareidólico» donde la probabilidad de ver caras es mayor, correspondiente a imágenes que tienen «la cantidad justa» de complejidad. Esta “zona Ricitos de Oro” prevista se validó luego en pruebas tanto con sujetos humanos reales como con sistemas de detección de rostros de IA.

3 fotos de nubes encima 3 fotos de una tarta de frutas. La foto de la izquierda de cada uno es “Demasiado simple” para percibir un rostro; la foto del medio es

Este nuevo conjunto de datos, “Caras en las cosas”, eclipsa los de estudios anteriores que normalmente utilizaban sólo entre 20 y 30 estímulos. Esta escala permitió a los investigadores explorar cómo se comportaban los algoritmos de detección de rostros de última generación después de realizar ajustes en rostros pareidólicos, lo que demuestra que estos algoritmos no solo podrían editarse para detectar estos rostros, sino que también podrían actuar como un silicio. sustituto de nuestro propio cerebro, lo que permite al equipo hacer y responder preguntas sobre los orígenes de la detección de rostros pareidólicos que son imposibles de formular en humanos.

Para construir este conjunto de datos, el equipo seleccionó aproximadamente 20.000 imágenes candidatas del conjunto de datos LAION-5B, que luego fueron etiquetadas y juzgadas meticulosamente por anotadores humanos. Este proceso implicó dibujar cuadros delimitadores alrededor de los rostros percibidos y responder preguntas detalladas sobre cada rostro, como la emoción percibida, la edad y si el rostro fue accidental o intencional. «Recopilar y anotar miles de imágenes fue una tarea monumental», dice Hamilton. «Gran parte del conjunto de datos debe su existencia a mi madre», una banquera jubilada, «que pasó incontables horas etiquetando con cariño imágenes para nuestro análisis».

El estudio también tiene aplicaciones potenciales para mejorar los sistemas de detección de rostros al reducir los falsos positivos, lo que podría tener implicaciones para campos como los vehículos autónomos, la interacción persona-computadora y la robótica. El conjunto de datos y los modelos también podrían ayudar en áreas como el diseño de productos, donde comprender y controlar la pareidolia podría crear mejores productos. «Imagínese poder modificar automáticamente el diseño de un automóvil o un juguete infantil para que parezca más amigable, o garantizar que un dispositivo médico no parezca amenazador sin darse cuenta», dice Hamilton.

“Es fascinante cómo los humanos interpretan instintivamente objetos inanimados con rasgos humanos. Por ejemplo, cuando miras un enchufe eléctrico, puedes imaginarlo inmediatamente cantando e incluso puedes imaginar cómo «movería los labios». Sin embargo, los algoritmos no reconocen naturalmente estas caras caricaturescas del mismo modo que lo hacemos nosotros”, afirma Hamilton. “Esto plantea preguntas intrigantes: ¿A qué se debe esta diferencia entre la percepción humana y la interpretación algorítmica? ¿La pareidolia es beneficiosa o perjudicial? ¿Por qué los algoritmos no experimentan este efecto como nosotros? Estas preguntas impulsaron nuestra investigación, ya que este fenómeno psicológico clásico en humanos no había sido explorado a fondo en algoritmos”.

Mientras los investigadores se preparan para compartir su conjunto de datos con la comunidad científica, ya miran hacia el futuro. El trabajo futuro puede implicar el entrenamiento de modelos de visión y lenguaje para comprender y describir rostros pareidólicos, lo que podría conducir a sistemas de inteligencia artificial que puedan interactuar con estímulos visuales de maneras más parecidas a las humanas.

“¡Éste es un artículo delicioso! Es divertido de leer y me hace pensar. Hamilton y cols. Propongamos una pregunta tentadora: ¿Por qué vemos caras en las cosas? dice Pietro Perona, profesor Allen E. Puckett de Ingeniería Eléctrica en Caltech, que no participó en el trabajo. “Como señalan, aprender de ejemplos, incluidos rostros de animales, sólo explica a medias el fenómeno. Apuesto a que pensar en esta pregunta nos enseñará algo importante sobre cómo nuestro sistema visual se generaliza más allá del entrenamiento que recibe a lo largo de la vida”.

Los coautores de Hamilton y Freeman incluyen a Simon Stent, científico investigador del Instituto de Investigación Toyota; Ruth Rosenholtz, científica investigadora principal del Departamento de Ciencias Cognitivas y del Cerebro, científica investigadora de NVIDIA y ex miembro de CSAIL; y la posdoctorada Vasha DuTell, Anne Harrington MEng ’23 y la investigadora científica Jennifer Corbett, afiliadas a CSAIL. Su trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias y la beca CSAIL MEnTorEd Opportunities in Research (METEOR), mientras que fue patrocinado por el Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de los Estados Unidos. El MIT SuperCloud y el Lincoln Laboratory Supercomputing Center proporcionaron recursos de HPC para los resultados de los investigadores.

Este trabajo se presentará esta semana en la Conferencia Europea sobre Visión por Computador.