Enseñar a la IA a ver el mundo más como lo ven los humanos

Una nueva investigación muestra que reorganizar las representaciones visuales de un modelo puede hacerlo más útil, sólido y confiable.

La inteligencia artificial (IA) “visual” está en todas partes. Lo usamos para ordenar nuestras fotografías, identificar flores desconocidas y conducir nuestros autos. Pero estos poderosos sistemas no siempre “ven” el mundo como nosotros y, a veces, se comportan de manera sorprendente. Por ejemplo, un sistema de inteligencia artificial que pueda identificar cientos de fabricantes y modelos de automóviles aún podría no capturar los puntos en común entre un automóvil y un avión, es decir, ambos son vehículos grandes hechos principalmente de metal.

Para comprender mejor estas diferencias, hoy publicamos un nuevo artículo en Nature que analiza las formas importantes en que los sistemas de inteligencia artificial organizan el mundo visual de manera diferente a los humanos. Presentamos un método para alinear mejor estos sistemas con el conocimiento humano y mostramos que abordar estas discrepancias mejora su solidez y capacidad de generalización.

Este trabajo es un paso hacia la construcción de sistemas de IA más intuitivos y confiables.

Por qué la IA tiene problemas con el “extraño”

Cuando ves un gato, tu cerebro crea una representación mental que captura todo sobre el gato, desde conceptos básicos como su color y pelaje hasta conceptos de alto nivel como su “gatuidad”. Los modelos de visión de IA también producen representaciones, al mapear imágenes en puntos en un espacio de alta dimensión donde elementos similares (como dos ovejas) se colocan cerca uno del otro, y otros diferentes (una oveja y un pastel) están muy separados.

Para comprender las diferencias en cómo se organizan las representaciones humanas y de modelos, utilizamos la clásica tarea de “el impar” de la ciencia cognitiva, pidiendo tanto a los humanos como a los modelos que eligieran cuál de las tres imágenes dadas no encaja con las demás. Esta prueba revela qué dos elementos “ven” más similares.

A veces todos están de acuerdo. Dados un tapir, una oveja y un pastel de cumpleaños, tanto los humanos como los modelos eligen de manera confiable el pastel como el extraño. Otras veces, la respuesta correcta no está clara y las personas y los modelos no están de acuerdo.

Curiosamente, también encontramos muchos casos en los que los humanos están totalmente de acuerdo en una respuesta, pero los modelos de IA se equivocan. En el tercer ejemplo a continuación, la mayoría de la gente está de acuerdo en que la estrella de mar es la extraña. Pero la mayoría de los modelos de visión se centran más en características superficiales como el color y la textura del fondo, y eligen al gato en su lugar.