Un espacio unificado de incrustación acústica a voz a idioma captura la base neural del procesamiento del lenguaje natural en las conversaciones cotidianas

El procesamiento del lenguaje en el cerebro presenta un desafío debido a su naturaleza inherentemente compleja, multidimensional y dependiente del contexto. Los psicolingüistas han intentado construir características y procesos simbólicos bien definidos para dominios, como fonemas para el análisis del habla y las unidades de parte del voz para estructuras sintácticas. A pesar de reconocer algunas interacciones entre dominios, la investigación se ha centrado en modelar cada subcampo lingüístico de forma aislada a través de manipulaciones experimentales controladas. Esta estrategia de división y conquista muestra limitaciones, ya que ha surgido una brecha significativa entre el procesamiento del lenguaje natural y las teorías psicolingüísticas formales. Estos modelos y teorías luchan para capturar las interacciones sutiles, no lineales y dependientes del contexto que ocurren dentro y entre los niveles de análisis lingüístico.

Los avances recientes en LLM han mejorado drásticamente el procesamiento, resumen y generación del lenguaje conversacional. Estos modelos sobresalen en el manejo de propiedades sintácticas, semánticas y pragmáticas del texto escrito y en el reconocimiento del habla de las grabaciones acústicas. Los modelos multimodales de extremo a extremo representan un avance teórico significativo sobre los modelos solo de texto al proporcionar un marco unificado para transformar la entrada auditiva continua en dimensiones lingüísticas a nivel de palabras y palabras durante las conversaciones naturales. A diferencia de los enfoques tradicionales, estos modelos profundos de acústica a voz a idioma cambian a representaciones vectoriales multidimensionales donde todos los elementos del habla y el lenguaje se integran en vectores continuos en una población de unidades de computación simples al optimizar los objetivos directos.

Investigadores de la Universidad Hebrea, Google Research, la Universidad de Princeton, la Universidad de Maastricht, el Hospital General de Massachusetts y la Facultad de Medicina de Harvard, la Facultad de Medicina de la Universidad de Nueva York y la Universidad de Harvard han presentado un marco computacional unificado que conecta las estructuras lingüísticas acústicas, del habla y del nivel de palabras para investigar la base neural de las conversaciones cotidianas en el cerebro humano. Utilizaron la electrocorticografía para registrar señales neuronales en 100 horas de producción de habla natural y detallados como participantes involucrados en conversaciones de vida real abiertas. El equipo extrajo varias incrustaciones como el discurso acústico de bajo nivel, el habla de nivel medio y las incrustaciones de palabras contextuales de un modelo multimodal de voz a texto llamado Whisper. Su modelo predice la actividad neuronal en cada nivel de la jerarquía de procesamiento del lenguaje a través de horas de conversaciones previamente invisibles.

El funcionamiento interno del modelo Whisper acústico a voz a idioma se examina para modelar y predecir la actividad neuronal durante las conversaciones diarias. Se extraen tres tipos de incrustaciones del modelo para cada palabra que los pacientes hablan o escuchan: incrustaciones acústicas de la capa de entrada auditiva, incrustaciones del habla de la capa final del codificador del habla e incrustaciones del lenguaje de las capas finales del decodificador. Para cada tipo de incrustación, los modelos de codificación de electrodos se construyen para mapear las incrustaciones a la actividad neuronal durante la producción y comprensión del habla. Los modelos de codificación muestran una notable alineación entre la actividad del cerebro humano y el código de población interno del modelo, prediciendo con precisión las respuestas neuronales en cientos de miles de palabras en datos de conversación.

Las incrustaciones acústicas, del habla y del lenguaje del modelo Whisper muestran una precisión predictiva excepcional para la actividad neuronal en cientos de miles de palabras durante la producción y comprensión del habla en toda la red de idiomas corticales. Durante la producción del habla, se observa un procesamiento jerárquico cuando las áreas articulatorias (PRECG, PostCG, STG) se predicen mejor mediante incrustaciones del habla, mientras que las áreas lingüísticas de nivel superior (IFG, PMTG, AG) se alinean con las incrustaciones del lenguaje. Los modelos de codificación muestran una especificidad temporal, con un rendimiento de más de 300 ms antes del inicio de las palabras durante la producción y 300 ms después del inicio durante la comprensión, con incrustaciones del habla que predicen mejor actividad en áreas perceptivas y articulatorias e incrustaciones de lenguaje que se destacan en áreas de lenguaje de alto orden.

En resumen, el modelo acústico a voz a idioma ofrece un marco computacional unificado para investigar la base neural del procesamiento del lenguaje natural. Este enfoque integrado es un cambio de paradigma hacia modelos no simbólicos basados ​​en el aprendizaje estadístico y los espacios de incrustación de alta dimensión. A medida que estos modelos evolucionan para procesar mejor el habla natural, su alineación con los procesos cognitivos puede mejorar de manera similar. Algunos modelos avanzados como GPT-4O incorporan modalidad visual junto con el habla y el texto, mientras que otros integran sistemas de articulación encarnados que imitan la producción del habla humana. La rápida mejora de estos modelos respalda un cambio a un paradigma lingüístico unificado que enfatiza el papel del aprendizaje estadístico basado en el uso en la adquisición del lenguaje, ya que se materializa en contextos de la vida real.


    Verificar el Papely Blog de Google. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


    Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.