Target Combo.jpeg

Cuando Dimitris Papailiopoulos le pidió por primera vez a ChatGPT que interpretara los colores de las imágenes, estaba pensando en «el vestido”—la fotografía de ilusión óptica notoriamente confusa que arrasó en Internet en 2015. Papailiopoulos, un profesor adjunto de ingeniería informática en la Universidad de Wisconsin-Madison, estudia el tipo de inteligencia artificial que subyace chatbots como ChatGPT de OpenAI y Gemini de Google. Tenía curiosidad acerca de cómo estos modelos de IA podrían responder a las ilusiones que engañan al cerebro humano.

El sistema visual humano está adaptado para percibir objetos con colores consistentes, de modo que aún podamos reconocer elementos en diferentes condiciones de iluminación. A nuestros ojos, una hoja parece verde en un mediodía brillante y en una puesta de sol anaranjada, aunque la hoja refleja diferentes longitudes de onda de luz a medida que avanza el día. Esta adaptación le ha dado a nuestro cerebro todo tipo de formas ingeniosas para ver colores falsos, y muchas de ellas conducen a ilusiones ópticas familiares, como tableros de ajedrez que parecen tener patrones consistentes (pero no lo son) cuando están sombreados por cilindros u objetos como latas de coca cola que aparecen falsamente en sus colores familiares cuando se superponen con rayas distorsionadas.

en un serie de pruebas, Papailiopoulos observó que GPT-4V (una versión reciente de ChatGPT) parece caer en muchos de los mismos engaños visuales que engañan a la gente. Las respuestas del chatbot a menudo coinciden con la percepción humana: no identificar el color real de los píxeles en una imagen pero describir el mismo color que probablemente tendría una persona. Eso era incluso cierto con fotografías que creó Papailiopoulos, como uno de sashimi que todavía luce rosado a pesar del filtro azul. Esta imagen en particular, un ejemplo de lo que se conoce como ilusión de constancia de color, no se había publicado previamente en línea y, por lo tanto, no podría haberse incluido en los datos de entrenamiento de ningún chatbot de IA.


Sobre el apoyo al periodismo científico

Si está disfrutando este artículo, considere apoyar nuestro periodismo galardonado al suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.


Una imagen de un objetivo (izquierda) y una imagen filtrada en azul que muestra la ilusión de constancia de color (bien). Aunque la diana en la versión manipulada aparece roja, de hecho, sus píxeles tienen mayores valores de azul y verde. (El filtro azul se aplicó usando una herramienta creada por Akiyoshi Kitaoka.)

krisanapong detrapphihat/Getty Images (fotografía); Compresión del histograma de Akiyoshi Kitaoka (filtro azul)

«Este no fue un estudio científico», señala Papailiopoulos, sino simplemente una experimentación casual. Pero dice que las respuestas sorprendentemente humanas del chatbot no tienen explicaciones claras. Al principio, se preguntó si ChatGPT limpia imágenes sin procesar para que los datos que procesa sean más uniformes. OpenAI dijo Científico americano Sin embargo, en un correo electrónico, ChatGPT no ajusta la temperatura del color u otras características de una imagen de entrada antes de que GPT-4V la interprete. Sin esa explicación sencilla, Papailiopoulos dice que es posible que el modelo transformador de visión-lenguaje haya aprendido a interpretar el color en contexto, evaluando los objetos dentro de una imagen en comparación entre sí y evaluando los píxeles en consecuencia, similar a lo que hace el cerebro humano.

Blake Richards, profesor asociado de informática y neurociencia en la Universidad McGill, está de acuerdo en que el modelo podría haber aprendido el color contextualmente como lo hacen los humanos, identificando un objeto y respondiendo a cómo aparece ese tipo de elemento en general. En el caso de “el vestido”, por ejemplo, los científicos creen que diferentes personas interpretaron los colores de dos maneras diferentes (como oro y blanco o azul y negro) basándose en sus suposiciones sobre la fuente de luz iluminando la tela.

El hecho de que un modelo de IA pueda interpretar imágenes con matices similares ayuda a comprender cómo es probable que las personas desarrollen el mismo conjunto de habilidades, afirma Richards. «Esto nos dice que nuestra propia tendencia a hacer esto es casi seguramente el resultado de una simple exposición a los datos», explica. Si un algoritmo alimentado con muchos datos de entrenamiento comienza a interpretar el color subjetivamente, significa que la percepción humana y la de la máquina pueden estar estrechamente alineadas, al menos en este aspecto.

Sin embargo, en otros casos, como muestran estudios recientes, estos modelos no se comportan en absoluto como nosotros, un hecho que revela diferencias clave entre cómo las personas y las máquinas “ven” el mundo. Algunos investigadores han descubierto que los modelos transformadores de visión y lenguaje recientemente desarrollados responden a las ilusiones de manera inconsistente. A veces responden como lo harían los humanos; en otros casos, proporcionan respuestas puramente lógicas y objetivamente precisas. Y de vez en cuando responden con total tontería, probablemente el resultado de una alucinación.

La motivación detrás de tales estudios no es demostrar que los humanos y la IA sean similares. Una diferencia fundamental es que nuestro cerebro está lleno de conexiones no lineales y circuitos de retroalimentación que transportan señales de un lado a otro. A medida que nuestros ojos y otros sistemas sensoriales recopilan información del mundo exterior, estas redes iterativas «ayudan a nuestro cerebro a llenar cualquier vacío», dice Joel Zylberberg, un neurocientífico computacional de la Universidad de York en Ontario, que no participó en los estudios de ilusión óptica. Aunque se han desarrollado algunas redes neuronales recurrentes para imitar este aspecto del cerebro humano, muchos modelos de aprendizaje automático no están diseñados para tener conexiones bidireccionales repetitivas. Los modelos de IA de transformadores generativos más populares se basan en funciones matemáticas que son «feed-forward». Esto significa que la información se mueve a través de ellos en una sola dirección: desde la entrada hacia la salida.

Estudiar cómo reaccionan estos sistemas de inteligencia artificial a las ilusiones ópticas podría ayudar a los científicos informáticos a comprender mejor las capacidades y los sesgos de estos modelos de aprendizaje automático unidireccionales. Podría ayudar a los investigadores de IA a identificar qué factores más allá de la recurrencia son relevantes para imitar las respuestas humanas.

Un factor potencial es el tamaño de un modelo, según un equipo de científicos informáticos que evaluó cuatro modelos de visión y lenguaje de código abierto y presentó sus hallazgos en una conferencia en diciembre de 2023. Los investigadores encontraron que los modelos más grandes, es decir, aquellos desarrollados con más pesos y variables que determinan una respuesta, eran más estrechamente alineado con respuestas humanas a las ilusiones ópticas que los más pequeños. En general, los modelos de IA que los científicos probaron no fueron particularmente buenos para localizar elementos ilusorios dentro de una imagen (tenían menos del 36 por ciento de precisión en promedio) y solo se alinearon con las respuestas humanas en aproximadamente el 16 por ciento de los casos en promedio. Sin embargo, el estudio también encontró que los modelos imitaban más a los humanos en respuesta a ciertos tipos de ilusiones que a otros.

Pedir a estos modelos que evalúen ilusiones de perspectiva, por ejemplo, produjo los resultados más parecidos a los humanos. En las ilusiones de perspectiva, los objetos de igual tamaño dentro de una imagen parecen tener tamaños diferentes cuando se colocan sobre un fondo que sugiere una profundidad tridimensional. Se pidió a los modelos que juzgaran el tamaño relativo de la silueta de los objetos en una imagen, y los investigadores también repitieron esta prueba con imágenes emparejadas y volteadas para detectar cualquier posible sesgo hacia la derecha o hacia la izquierda en las respuestas de los modelos. Si las respuestas del robot a todas las preguntas coincidían con la percepción humana estándar, los autores del estudio lo consideraron «humano». Para un tipo de indicación, que medía la capacidad de los modelos para localizar objetos en una imagen, los dos modelos probados eran hasta un 75 por ciento parecidos a los humanos al responder a las ilusiones de perspectiva. En otras pruebas y para otros modelos, las tasas de respuestas similares a las humanas fueron considerablemente más bajas.

En un estudio preliminar separado publicado en marzo, los investigadores probaron las capacidades de GPT-4V y Gemini-Pro de Google para evaluar 12 categorías diferentes de ilusiones ópticas. Los incluidos ilusiones de objetos imposibles, que son figuras bidimensionales de objetos que no podrían existir en un espacio tridimensional, e ilusiones de imágenes ocultas en las que siluetas de objetos se incluyen en una imagen sin ser inmediatamente obvios. En nueve de 12 categorías, los modelos fueron peores a la hora de identificar lo que estaba sucediendo en una ilusión en comparación con las personas, con un promedio de precisión del 59 por ciento frente al 94 por ciento de los encuestados humanos. Pero en tres categorías (ilusiones de color, ángulo y tamaño), GPT-4V tuvo un desempeño comparable o incluso ligeramente mejor que los revisores humanos.

Wasi Ahmad, uno de los autores del estudio y científico aplicado en el laboratorio de inteligencia artificial de Amazon Web Services, cree que la diferencia se reduce a si el análisis de las ilusiones requiere un razonamiento cuantitativo o cualitativo. Los humanos son expertos en ambos. Los modelos de aprendizaje automático, por otro lado, podrían estar menos preparados para emitir juicios basados ​​en cosas que no pueden medirse fácilmente, afirma Ahmad. Las tres categorías de ilusiones en las que los sistemas de IA fueron mejores para interpretar involucran atributos cuantificables y mensurables, no solo percepción subjetiva.

Para implementar sistemas de IA de manera responsable, debemos comprender sus vulnerabilidades y puntos ciegos, así como dónde se replicarán y dónde no se replicarán las tendencias humanas, dice Joyce Chai, profesora de informática e investigadora de IA en la Universidad de Michigan y autora principal de la preimpresión. presentado en la conferencia de diciembre de 2023. «Podría ser bueno o malo que un modelo se alinee con los humanos», afirma. En algunos casos, es deseable que un modelo mitigue los prejuicios humanos. Herramientas de diagnóstico médico de IA que analizar imágenes de radiologíapor ejemplo, idealmente no sería susceptible a errores visuales.

Sin embargo, en otras aplicaciones, podría resultar beneficioso que una IA imite ciertos prejuicios humanos. Es posible que queramos que los sistemas visuales de IA utilizados en los vehículos autónomos coincidan con el error humano, señala Richards, para que errores del vehículo son más fáciles de predecir y comprender. “Uno de los mayores peligros de los vehículos autónomos no es que cometan errores. Los humanos cometemos errores al conducir todo el tiempo”, afirma. Pero lo que le preocupa de los vehículos autónomos son sus “errores extraños”, que los sistemas de seguridad establecidos en la carretera no están preparados para manejar.

El GPT-4V de OpenAI y otros grandes modelos de aprendizaje automático suelen ser descrito como cajas negras(sistemas opacos que proporcionan resultados sin explicación), pero el fenómeno muy humano de las ilusiones ópticas podría ofrecer una idea de lo que hay dentro de ellas.