Meta lanza TRIBE v2: un modelo de codificación cerebral que predice respuestas de resonancia magnética funcional a través de estímulos de video, audio y texto

La neurociencia ha sido durante mucho tiempo un campo de dividir y conquistar. Los investigadores suelen asignar funciones cognitivas específicas a regiones cerebrales aisladas (como el movimiento al área V5 o las caras de la circunvolución fusiforme) utilizando modelos adaptados a paradigmas experimentales limitados. Si bien esto ha proporcionado conocimientos profundos, el panorama resultante está fragmentado y carece de un marco unificado para explicar cómo el cerebro humano integra la información multisensorial.

El equipo FAIR de Meta ha presentado TRIBE v2, un modelo de base trimodal diseñado para cerrar esta brecha. Al alinear las representaciones latentes de arquitecturas de IA de última generación con la actividad del cerebro humano, TRIBE v2 predice respuestas de resonancia magnética funcional de alta resolución en diversas condiciones naturalistas y experimentales.

https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/

La arquitectura: integración multimodal

TRIBE v2 no aprende a ‘ver’ ni a ‘oír’ desde cero. En cambio, aprovecha la alineación representacional entre las redes neuronales profundas y el cerebro de los primates. La arquitectura consta de tres modelos básicos congelados que sirven como extractores de características, un transformador temporal y un bloque de predicción específico para un tema.

El modelo procesa estímulos a través de tres codificadores especializados:

Texto: Las incrustaciones contextualizadas se extraen de LLaMA 3.2-3B. Para cada palabra, el modelo antepone las 1024 palabras anteriores para proporcionar un contexto temporal, que luego se asigna a una cuadrícula de 2 Hz. Vídeo: el modelo utiliza V-JEPA2-Giant para procesar segmentos de 64 fotogramas que abarcan los 4 segundos anteriores para cada intervalo de tiempo. Audio: el sonido se procesa a través de Wav2Vec-BERT 2.0, con representaciones remuestreadas a 2 Hz para que coincidan con la frecuencia del estímulo (fstim) (f_{stim}).

2. Agregación temporal

Las incrustaciones resultantes se comprimen en una dimensión compartida (D=384)(D=384) y se concatenan para formar una serie temporal multimodal con una dimensión de modelo de Dmodel=3×384=1152D_{model} = 3 \times 384 = 1152. Esta secuencia se introduce en un codificador Transformer (8 capas, 8 cabezales de atención) que intercambia información a través de una ventana de 100 segundos.

3. Predicción por tema específico

Para predecir la actividad cerebral, las salidas del transformador se diezman a la frecuencia de fMRI de 1 Hz (ffMRI)(f_{fMRI}) y se pasan a través de un bloque de sujetos. Este bloque proyecta las representaciones latentes a 20.484 vértices corticales (fsaverage5surface)(fsaverage5surface) y 8.802 vóxeles subcorticales.

Leyes de datos y escalamiento

Un obstáculo importante en la codificación cerebral es la escasez de datos. TRIBE v2 aborda esto mediante el uso de conjuntos de datos “profundos” para el entrenamiento (donde unos pocos sujetos se registran durante muchas horas) y conjuntos de datos “amplios” para la evaluación.

Entrenamiento: el modelo se entrenó con 451,6 horas de datos de resonancia magnética funcional de 25 sujetos en cuatro estudios naturalistas (películas, podcasts y videos mudos). Evaluación: Se evaluó en una colección más amplia que totalizó 1.117,7 horas de 720 sujetos.

El equipo de investigación observó un aumento log-lineal en la precisión de la codificación a medida que aumentaba el volumen de datos de entrenamiento, sin evidencia de una meseta. Esto sugiere que a medida que se expandan los repositorios de neuroimágenes, el poder predictivo de modelos como TRIBE v2 seguirá aumentando.

Resultados: superando las líneas de base

TRIBE v2 supera significativamente a los modelos tradicionales de respuesta de impulso finito (FIR), el estándar de oro de larga data para la codificación de vóxeles.

Zero-Shot y actuación grupal

Una de las capacidades más sorprendentes del modelo es la generalización cero a nuevos sujetos. Usando una capa de “sujetos invisibles”, TRIBE v2 puede predecir la respuesta promedio del grupo de una nueva cohorte con mayor precisión que el registro real de muchos sujetos individuales dentro de esa cohorte. En el conjunto de datos 7T del Human Connectome Project (HCP) de alta resolución, TRIBE v2 logró una correlación de grupo (Rgroup) (R_{group}) cercana a 0,4, una mejora del doble con respecto a la predicción de grupo del sujeto medio.

Sintonia FINA

Cuando se le proporciona una pequeña cantidad de datos (como máximo una hora) para un nuevo participante, ajustar TRIBE v2 para solo una época conduce a una mejora de dos a cuatro veces con respecto a los modelos lineales entrenados desde cero.

Experimentación in silico

El equipo de investigación sostiene que TRIBE v2 podría ser útil para pilotear o realizar estudios de neuroimagen de preselección. Al ejecutar experimentos virtuales en el conjunto de datos de Individual Brain Charting (IBC), el modelo recuperó puntos de referencia funcionales clásicos:

Visión: localizó con precisión el área de la cara fusiforme (FFA) y el área del lugar parahipocampal (PPA). Lenguaje: Se recuperó con éxito la unión temporo-parietal (TPJ) para el procesamiento emocional y el área de Broca para la sintaxis.

Además, la aplicación del Análisis de Componentes Independientes (ICA) a la capa final del modelo reveló que TRIBE v2 aprende naturalmente cinco redes funcionales bien conocidas: auditiva primaria, lenguaje, movimiento, modo predeterminado y visual.

https://aidemos.atmeta.com/tribev2/

Conclusión clave

Una poderosa arquitectura trimodal: TRIBE v2 es un modelo básico que integra video, audio y lenguaje aprovechando codificadores de última generación como LLaMA 3.2 para texto, V-JEPA2 para video y Wav2Vec-BERT para audio. Leyes de escala log-lineal: al igual que los grandes modelos de lenguaje que usamos todos los días, TRIBE v2 sigue una ley de escala log-lineal; su capacidad para predecir con precisión la actividad cerebral aumenta de manera constante a medida que recibe más datos de resonancia magnética funcional, sin que actualmente se vislumbre una meseta en el rendimiento. Generalización superior de disparo cero: el modelo puede predecir las respuestas cerebrales de sujetos invisibles en nuevas condiciones experimentales sin ningún entrenamiento adicional. Sorprendentemente, sus predicciones de tiro cero suelen ser más precisas a la hora de estimar las respuestas cerebrales promediadas por grupos que las grabaciones de los propios sujetos humanos individuales. El amanecer de la neurociencia in-silico: TRIBE v2 permite la experimentación ‘in-silico’, lo que permite a los investigadores ejecutar pruebas neurocientíficas virtuales en una computadora. Replicó con éxito décadas de investigación empírica identificando áreas especializadas como el área de la cara fusiforme (FFA) y el área de Broca mediante simulación puramente digital. Interpretabilidad biológica emergente: aunque se trata de una “caja negra” de aprendizaje profundo, las representaciones internas del modelo se organizaron naturalmente en cinco redes funcionales bien conocidas: auditiva primaria, lenguaje, movimiento, modo predeterminado y visual.

Consulte el código, los pesos y la demostración. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.