Las redes neuronales profundas son prometedoras como modelos de audición humana |  Noticias del MIT

Los modelos computacionales que imitan la estructura y función del sistema auditivo humano podrían ayudar a los investigadores a diseñar mejores audífonos, implantes cocleares e interfaces cerebro-máquina. Un nuevo estudio del MIT ha descubierto que los modelos computacionales modernos derivados del aprendizaje automático se están acercando a este objetivo.

En el estudio más grande hasta ahora sobre redes neuronales profundas que han sido entrenadas para realizar tareas auditivas, el equipo del MIT demostró que la mayoría de estos modelos generan representaciones internas que comparten propiedades de las representaciones observadas en el cerebro humano cuando las personas escuchan los mismos sonidos.

El estudio también ofrece información sobre cómo entrenar mejor este tipo de modelo: los investigadores descubrieron que los modelos entrenados con información auditiva, incluido el ruido de fondo, imitan más fielmente los patrones de activación de la corteza auditiva humana.

“Lo que distingue a este estudio es que es la comparación más completa de este tipo de modelos con el sistema auditivo hasta el momento. El estudio sugiere que los modelos derivados del aprendizaje automático son un paso en la dirección correcta y nos da algunas pistas sobre lo que tiende a convertirlos en mejores modelos del cerebro”, afirma Josh McDermott, profesor asociado de cerebro y cognitivo. Ciencias del MIT, miembro del Instituto McGovern de Investigación del Cerebro y del Centro para Cerebros, Mentes y Máquinas del MIT, y autor principal del estudio.

La estudiante graduada del MIT Greta Tuckute y Jenelle Feather PhD ’22 son las autoras principales del acceso abierto artículo, que aparece hoy en Más biología.

Modelos de audiencia

Las redes neuronales profundas son modelos computacionales que constan de muchas capas de unidades de procesamiento de información que pueden entrenarse con grandes volúmenes de datos para realizar tareas específicas. Este tipo de modelo se ha utilizado ampliamente en muchas aplicaciones y los neurocientíficos han comenzado a explorar la posibilidad de que estos sistemas también puedan usarse para describir cómo el cerebro humano realiza ciertas tareas.

“Estos modelos que se construyen con aprendizaje automático son capaces de mediar comportamientos en una escala que realmente no era posible con tipos de modelos anteriores, y eso ha generado interés en si las representaciones en los modelos podrían capturar o no cosas que están sucediendo. en el cerebro”, dice Tuckute.

Cuando una red neuronal realiza una tarea, sus unidades de procesamiento generan patrones de activación en respuesta a cada entrada de audio que recibe, como una palabra u otro tipo de sonido. Esas representaciones modelo de la entrada se pueden comparar con los patrones de activación observados en escáneres cerebrales por resonancia magnética funcional de personas que escuchan la misma entrada.

En 2018, McDermott y el entonces estudiante graduado Alexander Kell reportado que cuando entrenaron una red neuronal para realizar tareas auditivas (como reconocer palabras a partir de una señal de audio), las representaciones internas generadas por el modelo mostraron similitudes con las observadas en exploraciones por resonancia magnética funcional de personas que escuchaban los mismos sonidos.

Desde entonces, este tipo de modelos se han utilizado ampliamente, por lo que el grupo de investigación de McDermott se propuso evaluar un conjunto más amplio de modelos, para ver si la capacidad de aproximarse a las representaciones neuronales vistas en el cerebro humano es un rasgo general de estos modelos.

Para este estudio, los investigadores analizaron nueve modelos de redes neuronales profundas disponibles públicamente que habían sido entrenados para realizar tareas auditivas, y también crearon 14 modelos propios, basados ​​en dos arquitecturas diferentes. La mayoría de estos modelos fueron entrenados para realizar una sola tarea (reconocer palabras, identificar al hablante, reconocer sonidos ambientales e identificar género musical), mientras que dos de ellos fueron entrenados para realizar múltiples tareas.

Cuando los investigadores presentaron a estos modelos sonidos naturales que se habían utilizado como estímulos en experimentos de resonancia magnética funcional en humanos, descubrieron que las representaciones internas del modelo tendían a exhibir similitudes con las generadas por el cerebro humano. Los modelos cuyas representaciones eran más similares a las vistas en el cerebro eran modelos que habían sido entrenados en más de una tarea y habían sido entrenados con información auditiva que incluía ruido de fondo.

“Si entrenas modelos en ruido, dan mejores predicciones cerebrales que si no lo haces, lo cual es intuitivamente razonable porque gran parte de la audición en el mundo real implica oír en ruido, y eso es algo a lo que el sistema auditivo está adaptado”, dijo Feather. dice.

Procesamiento jerárquico

El nuevo estudio también respalda la idea de que la corteza auditiva humana tiene cierto grado de organización jerárquica, en la que el procesamiento se divide en etapas que respaldan distintas funciones computacionales. Al igual que en el estudio de 2018, los investigadores encontraron que las representaciones generadas en etapas anteriores del modelo se parecen más a las observadas en la corteza auditiva primaria, mientras que las representaciones generadas en etapas posteriores del modelo se parecen más a las generadas en regiones del cerebro más allá de la corteza primaria.

Además, los investigadores descubrieron que los modelos que habían sido entrenados en diferentes tareas replicaban mejor diferentes aspectos de la audición. Por ejemplo, los modelos entrenados en una tarea relacionada con el habla se parecían más a áreas selectivas del habla.

“Aunque el modelo ha visto exactamente los mismos datos de entrenamiento y la arquitectura es la misma, cuando optimizas para una tarea en particular, puedes ver que explica selectivamente propiedades de sintonización específicas en el cerebro”, dice Tuckute.

El laboratorio de McDermott planea ahora utilizar sus hallazgos para intentar desarrollar modelos que tengan aún más éxito en la reproducción de las respuestas del cerebro humano. Además de ayudar a los científicos a aprender más sobre cómo se puede organizar el cerebro, estos modelos también podrían usarse para ayudar a desarrollar mejores audífonos, implantes cocleares e interfaces cerebro-máquina.

“Uno de los objetivos de nuestro campo es conseguir un modelo informático que pueda predecir las respuestas y el comportamiento del cerebro. Creemos que si logramos alcanzar ese objetivo, se abrirán muchas puertas”, afirma McDermott.

La investigación fue financiada por los Institutos Nacionales de Salud, una beca de Amazon del Science Hub, una beca de doctorado internacional de la Asociación Estadounidense de Mujeres Universitarias, una beca del MIT Friends of McGovern Institute, una beca de K. Lisa Yang Integrative Computational Neuroscience (ICoN) Centro en el MIT, y una beca de posgrado en ciencias computacionales del Departamento de Energía.