Integración de sistemas neuronales para la percepción visual: el papel de la corteza temporal ventral (VTC) y la corteza temporal medial (MTC) en el reconocimiento rápido y complejo de objetos

La percepción humana y de los primates se produce en múltiples escalas de tiempo, y algunos atributos visuales se identifican en menos de 200 ms, gracias a la corteza temporal ventral (CTV). Sin embargo, las inferencias visuales más complejas, como el reconocimiento de objetos nuevos, requieren más tiempo y múltiples miradas. La fóvea de alta agudeza y los cambios frecuentes de la mirada ayudan a componer representaciones de objetos. Si bien se sabe mucho sobre el procesamiento visual rápido, se sabe menos sobre la integración de secuencias visuales. La corteza temporal medial (CTM), en particular la corteza perirrinal (CPR), puede ayudar en este proceso, permitiendo inferencias visuales más allá de las capacidades de la CTV al integrar entradas visuales secuenciales.

Los investigadores de Stanford evaluaron el papel de la MTC en la percepción de objetos comparando el rendimiento visual humano con las grabaciones de VTC de macacos. Si bien los humanos y la VTC tienen un rendimiento similar con tiempos de visualización breves (<200 ms), el rendimiento humano supera significativamente al de la VTC con una visualización prolongada. La MTC desempeña un papel clave en esta mejora, ya que los humanos con lesiones de MTC se comportan como modelos de VTC. Los experimentos de seguimiento ocular revelaron que los humanos utilizan patrones secuenciales de mirada para inferencias visuales complejas. Estos hallazgos sugieren que la MTC integra secuencias visoespaciales en representaciones compositivas, mejorando la percepción de objetos más allá de las capacidades de la VTC.

Los investigadores utilizaron un conjunto de datos de varias imágenes de objetos presentadas en diferentes orientaciones y configuraciones para estimar el rendimiento en función de las respuestas de VTC y compararlo con el procesamiento visual humano. Implementaron una estrategia de validación cruzada en la que los ensayos presentaban dos objetos típicos y un objeto atípico en configuraciones aleatorias. Luego, se utilizaron las respuestas neuronales de las áreas visuales de alto nivel del cerebro para entrenar un clasificador lineal para detectar el objeto extraño. Este proceso se repitió varias veces y se promediaron los resultados para determinar una puntuación de rendimiento para distinguir cada par de objetos.

A modo de comparación, se utilizó un modelo CNN, entrenado previamente para la clasificación de objetos, para evaluar el rendimiento del modelo VTC. Las imágenes se procesaron previamente para la CNN y se siguió una configuración experimental similar, en la que se entrenó un clasificador para detectar objetos extraños en varias pruebas. Se probó la precisión del modelo y se comparó con predicciones basadas en la respuesta neuronal, lo que ofreció información sobre la precisión con la que el procesamiento visual del modelo reflejaba la inferencia humana.

El estudio compara el rendimiento humano en dos regímenes visuales: restringido en el tiempo (menos de 200 ms) y sin restricción en el tiempo (a su propio ritmo). En las tareas restringidas en el tiempo, los participantes dependen del procesamiento visual inmediato, ya que no hay posibilidad de muestreo secuencial a través de los movimientos oculares. Se utilizó una tarea de discriminación visual de 3 vías y un paradigma de coincidencia con la muestra para evaluar esto. Los resultados mostraron una fuerte correlación entre el rendimiento humano restringido en el tiempo y el rendimiento previsto por el VTC de alto nivel de los macacos. Sin embargo, con un tiempo de visualización ilimitado, los participantes humanos superaron significativamente el rendimiento respaldado por VTC y los modelos computacionales basados ​​en VTC. Esto demuestra que los humanos superan las capacidades de VTC cuando se les dan tiempos de visualización prolongados, lo que sugiere la dependencia de diferentes mecanismos neuronales.

El estudio revela sistemas neuronales complementarios en la percepción visual de objetos, donde la VTC permite inferencias visuales rápidas en 100 ms, mientras que la MTC admite inferencias más complejas a través de movimientos sacádicos secuenciales. Las tareas con restricciones de tiempo se alinean con el desempeño de la VTC, pero con más tiempo, los humanos superan las capacidades de la VTC, lo que refleja la integración de la MTC de secuencias visoespaciales. Los hallazgos enfatizan el papel de la MTC en las operaciones de composición, que se extienden más allá de la memoria a la percepción. Los modelos de visión humana, como las redes neuronales convolucionales, se aproximan a la VTC pero no logran capturar las contribuciones de la MTC, lo que sugiere la necesidad de modelos biológicamente plausibles que integren ambos sistemas.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, le apasiona aplicar la tecnología y la IA para abordar desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.