Introducción
Comprender cómo el cerebro construye representaciones internas del mundo visual es uno de los desafíos más fascinantes en la neurociencia. Durante la última década, el aprendizaje profundo ha remodelado la visión por computadora, produciendo redes neuronales que no solo funcionan a nivel humano en tareas de reconocimiento, sino que también parecen procesar información de manera que se parezca a nuestros cerebros. Esta superposición inesperada plantea una pregunta intrigante: ¿puede estudiar los modelos de IA ayudarnos a comprender mejor cómo el cerebro en sí mismo aprende a ver?
Investigadores de Meta Ai y École Normale Supérieure se propusieron explorar esta pregunta centrándose en Dinov3un transformador de visión auto-supervisado entrenado en miles de millones de imágenes naturales. Compararon las activaciones internas de Dinov3 con las respuestas cerebrales humanas con las mismas imágenes, utilizando dos técnicas de neuroimagen complementarias. fMRI proporcionó mapas espaciales de alta resolución de actividad cortical, mientras que Meg capturó el momento preciso de las respuestas cerebrales. Juntos, estos conjuntos de datos ofrecían una rica visión de cómo el cerebro procesa la información visual.
Detalle técnico
El equipo de investigación explora Tres factores que podrían impulsar la similitud del modelo cerebral: el tamaño del modelo, la cantidad de datos de entrenamiento y el tipo de imágenes utilizadas para el entrenamiento. Para hacer esto, el equipo entrenó múltiples versiones de Dinov3, variando estos factores de forma independiente.
Similitud del modelo cerebral
El equipo de investigación encontró una fuerte evidencia de convergencia al observar qué tan bien dinov3 coincidió con las respuestas cerebrales. Las activaciones del modelo predijeron señales de fMRI en regiones visuales tempranas y áreas corticales de orden superior. Las correlaciones de vóxel máximo alcanzaron R = 0.45y los resultados de MEG mostraron que la alineación comenzó tan pronto como 70 milisegundos después del inicio de la imagen y duró hasta tres segundos. Es importante destacar que las capas tempranas de Dinov3 alineadas con regiones como V1 y V2, mientras que las capas más profundas coincidían con la actividad en regiones de orden superior, incluidas partes de la corteza prefrontal.
Trayectorias de entrenamiento
El seguimiento de estas similitudes en el curso de la capacitación reveló una trayectoria de desarrollo. Las alineaciones visuales de bajo nivel surgieron muy temprano, después de solo una pequeña fracción de entrenamiento, mientras que las alineaciones de nivel superior requirieron miles de millones de imágenes. Esto refleja la forma en que se desarrolla el cerebro humano, con áreas sensoriales que maduran antes que las cortezas asociativas. El estudio mostró que la alineación temporal surgió más rápida, la alineación espacial más lentamente y codificando la similitud en el medio, destacando la naturaleza en capas del desarrollo representativo.
Papel de los factores del modelo
El papel de los factores del modelo fue igualmente revelador. Los modelos más grandes lograron consistentemente puntajes de similitud más altos, especialmente en regiones corticales de orden superior. La capacitación más larga mejoró la alineación en todos los ámbitos, con representaciones de alto nivel que se benefician la mayoría de la exposición prolongada. El tipo de imágenes también importaba: los modelos entrenados en imágenes centradas en el ser humano produjeron la alineación más fuerte. Los entrenados en imágenes satelitales o celulares mostraron una convergencia parcial en las regiones visuales tempranas, pero una similitud mucho más débil en áreas cerebrales de nivel superior. Esto sugiere que los datos ecológicamente relevantes son cruciales para capturar la gama completa de representaciones humanas.
Enlaces a propiedades corticales
Curiosamente, el momento de cuándo surgieron las representaciones de Dinov3 también se alinearon con propiedades estructurales y funcionales de la corteza. Regiones con mayor expansión del desarrollo, corteza más gruesa o escalas de tiempo intrínsecas más lentas alineadas más adelante en el entrenamiento. Por el contrario, regiones altamente mielinizadas alineadas anteriormente, lo que refleja su papel en el procesamiento rápido de la información. Estas correlaciones sugieren que los modelos de IA pueden ofrecer pistas sobre los principios biológicos subyacentes a la organización cortical.
Nativismo vs. empirismo
El estudio destaca un equilibrio entre la estructura innata y el aprendizaje. La arquitectura de Dinov3 le da una tubería de procesamiento jerárquica, pero la similitud completa de cerebro solo surgió con un entrenamiento prolongado en datos ecológicamente válidos. Esta interacción entre los antecedentes arquitectónicos y la experiencia se hace eco de los debates en la ciencia cognitiva sobre el nativismo y el empirismo.
Paralelos de desarrollo
Los paralelos al desarrollo humano son sorprendentes. Así como las cortezas sensoriales en el cerebro maduran rápidamente y las áreas asociativas se desarrollan más lentamente, Dinov3 se alineó con las regiones sensoriales al principio del entrenamiento y con las áreas prefrontales mucho más tarde. Esto sugiere que las trayectorias de entrenamiento en los modelos de IA a gran escala pueden servir como análogos computacionales para la maduración escenificada de las funciones del cerebro humano.
Más allá de la vía visual
Los resultados también se extendieron más allá de las vías visuales tradicionales. Dinov3 mostró alineación en las regiones prefrontales y multimodales, planteando preguntas sobre si dichos modelos capturan características de orden superior relevantes para el razonamiento y la toma de decisiones. Si bien este estudio se centró solo en Dinov3, apunta hacia posibilidades emocionantes para usar la IA como herramienta para probar hipótesis sobre la organización y el desarrollo del cerebro.
Conclusión
En conclusión, esta investigación muestra que los modelos de visión auto-supervisados como Dinov3 son más que poderosos sistemas de visión por computadora. También se aproximan a los aspectos del procesamiento visual humano, revelando cómo el tamaño, la capacitación y la convergencia de la forma de los datos entre cerebros y máquinas. Al estudiar cómo los modelos aprenden a “ver”, obtenemos información valiosa sobre cómo el cerebro humano desarrolla la capacidad de percibir e interpretar el mundo.
Mira el Papel aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.
