El aprendizaje profundo no supervisado identifica el desenredo semántico en neuronas de parche facial inferotemporal únicas

Nuestro cerebro tiene una capacidad asombrosa para procesar información visual. Podemos echar un vistazo a una escena compleja y en milisegundos poder analizarla en objetos y sus atributos, como color o tamaño, y usar esta información para describir la escena en un lenguaje simple. Detrás de esta habilidad aparentemente sencilla hay un cálculo complejo realizado por nuestra corteza visual, que implica tomar millones de impulsos neuronales transmitidos desde la retina y transformarlos en una forma más significativa que pueda mapearse en una descripción en lenguaje simple. Para comprender completamente cómo funciona este proceso en el cerebro, necesitamos descubrir cómo se representa la información semánticamente significativa en la activación de las neuronas al final de la jerarquía de procesamiento visual, y cómo se puede aprender dicha representación en gran medida. experiencia no enseñada.

Para responder a estas preguntas en el contexto de la percepción facial, unimos fuerzas con nuestros colaboradores en Caltech (Doris Tsao) y la Academia China de Ciencias (Lee Chang). Elegimos caras porque están bien estudiadas en la comunidad de neurociencia y a menudo se las ve como “microcosmos del reconocimiento de objetos”. En particular, queríamos comparar las respuestas de neuronas corticales individuales en las zonas faciales al final de la jerarquía de procesamiento visual, registradas por nuestros colaboradores, con una clase recientemente surgida de las llamadas redes neuronales profundas “desenredantes” que, a diferencia de las habituales ” Los sistemas de caja negra pretenden explícitamente ser interpretables por los humanos. Una red neuronal “desenredante” aprende a mapear imágenes complejas en una pequeña cantidad de neuronas internas (llamadas unidades latentes), cada una de las cuales representa un único atributo semánticamente significativo de la escena, como el color o el tamaño de un objeto (ver Figura 1). A diferencia de los clasificadores profundos de “caja negra” entrenados para reconocer objetos visuales a través de una cantidad biológicamente irreal de supervisión externa, estos modelos de desenredado se entrenan sin una señal de enseñanza externa utilizando un objetivo autosupervisado de reconstruir imágenes de entrada (generación en la Figura 1) a partir de sus representación latente aprendida (obtenida mediante inferencia en la Figura 1).

Desenredar fue hipotetizado ser importante en la comunidad de aprendizaje automático hace casi diez años como un componente integral para construir más datos eficientes, transferible, justoy imaginativo sistemas de inteligencia artificial. Sin embargo, durante años, la construcción de un modelo que pueda desenredarse en la práctica ha eludido el campo. El primer modelo capaz de hacer esto de manera exitosa y robusta, llamado β-VAEfue desarrollado tomando inspiración de la neurociencia: β-VAE aprende por predecir sus propias entradas; requiere una experiencia visual similar para un aprendizaje exitoso como que encuentran los bebés; y su representación latente aprendida refleja la propiedades conocidas del cerebro visual.

En nuestro nuevo papel, medimos hasta qué punto las unidades desenredadas descubiertas por un β-VAE entrenado en un conjunto de datos de imágenes faciales son similares a las respuestas de neuronas individuales al final del procesamiento visual registradas en primates que miran las mismas caras. Los datos neuronales fueron recopilados por nuestros colaboradores bajo rigurosa supervisión del Comité Institucional de Cuidado y Uso de Animales de Caltech. Cuando hicimos la comparación, encontramos algo sorprendente: parecía que el puñado de unidades desenredadas descubiertas por β-VAE se comportaban como si fueran equivalentes a un subconjunto de neuronas reales de tamaño similar. Cuando miramos más de cerca, encontramos un fuerte mapeo uno a uno entre las neuronas reales y las artificiales (ver Figura 2). Este mapeo era mucho más sólido que el de los modelos alternativos, incluidos los clasificadores profundos que antes se consideraban modelos computacionales de procesamiento visual de última generación, o un modelo artesanal de percepción facial visto como el “estándar de oro” en la comunidad de neurociencia. No solo eso, las unidades β-VAE codificaban información semánticamente significativa como la edad, el sexo, el tamaño de los ojos o la presencia de una sonrisa, lo que nos permitía comprender qué atributos utilizan las neuronas individuales del cerebro para representar caras.

Si β-VAE fue capaz de descubrir automáticamente unidades latentes artificiales que son equivalentes a las neuronas reales en términos de cómo responden a las imágenes faciales, entonces debería ser posible traducir la actividad de las neuronas reales en sus contrapartes artificiales correspondientes y utilizarlas. el generador (ver Figura 1) del β-VAE entrenado para visualizar qué caras representan las neuronas reales. Para probar esto, presentamos a los primates nuevas imágenes de rostros que el modelo nunca había experimentado y verificamos si podíamos renderizarlas usando el generador β-VAE (ver Figura 3). Descubrimos que esto era realmente posible. Utilizando la actividad de tan solo 12 neuronas, pudimos generar imágenes faciales que eran reconstrucciones más precisas de los originales y de mejor calidad visual que las producidas por los modelos generativos profundos alternativos. Esto a pesar de que se sabe que los modelos alternativos son mejores generadores de imágenes que los β-VAE en general.

Nuestros hallazgos se resumen en el nuevo papel sugieren que el cerebro visual puede entenderse a nivel de una sola neurona, incluso al final de su jerarquía de procesamiento. Esto es contrario a la creencia común de que la información semánticamente significativa es multiplexado entre un gran número de neuronas, cada uno de los cuales sigue siendo en gran medida ininterpretable individualmente, de manera similar a cómo se codifica la información a través de capas completas de neuronas artificiales en clasificadores profundos. No solo eso, nuestros hallazgos sugieren que es posible que el cerebro aprenda a respaldar nuestra capacidad sin esfuerzo para realizar percepción visual optimizando el objetivo de desenredo. Si bien β-VAE se desarrolló originalmente inspirándose en principios de neurociencia de alto nivella utilidad de las representaciones desenredadas para el comportamiento inteligente hasta ahora se ha demostrado principalmente en el comunidad de aprendizaje automático. En línea con la rica historia de beneficios mutuos Interacciones entre neurociencia y aprendizaje automático.esperamos que los últimos conocimientos del aprendizaje automático puedan ahora retroalimentar a la comunidad de neurociencia para investigar el mérito de las representaciones desenredadas para apoyar la inteligencia en los sistemas biológicos, en particular como base para razonamiento abstractoo generalizable y eficiente aprendizaje de tareas.