Meta AI lanza NeuralBench: un marco unificado de código abierto para comparar modelos de NeuroAI en 36 tareas de EEG y 94 conjuntos de datos

La evaluación de modelos de IA entrenados con señales cerebrales ha sido durante mucho tiempo un tema confuso e inconsistente. Diferentes grupos de investigación utilizan diferentes canales de preprocesamiento, entrenan modelos en diferentes conjuntos de datos e informan resultados sobre un conjunto limitado de tareas, lo que hace casi imposible saber qué modelo realmente funciona mejor o para qué. Un nuevo marco del equipo de Meta AI está diseñado para solucionar este problema.

Meta Researchers ha lanzado NeuralBench, un marco unificado de código abierto para comparar modelos de actividad cerebral de IA. Su primera versión, NeuralBench-EEG v1.0, es el punto de referencia abierto más grande de su tipo: 36 tareas posteriores, 94 conjuntos de datos, 9.478 sujetos, 13.603 horas de datos de electroencefalografía (EEG) y 14 arquitecturas de aprendizaje profundo evaluadas bajo una única interfaz estandarizada.

https://ai.meta.com/research/publications/neuralbench-a-unifying-framework-to-benchmark-neuroai-models/

El problema que resuelve NeuralBench

El campo más amplio de la NeuroAI, donde el aprendizaje profundo se une a la neurociencia, se ha disparado en los últimos años. Las técnicas de aprendizaje autosupervisado originalmente desarrolladas para el lenguaje, el habla y las imágenes ahora se están adaptando para construir modelos básicos del cerebro: modelos grandes entrenados previamente con grabaciones cerebrales sin etiquetar y ajustados para tareas posteriores que van desde la detección clínica de convulsiones hasta la decodificación de lo que una persona ve o escucha.

Pero el panorama de la evaluación se ha fragmentado gravemente. Los puntos de referencia existentes como MOABB cubren hasta 148 conjuntos de datos de interfaz cerebro-computadora (BCI), pero limitan la evaluación a solo cinco tareas posteriores. Otros esfuerzos (EEG-Bench, EEG-FM-Bench, AdaBrain-Bench) están limitados cada uno a su manera. Para modalidades como la magnetoencefalografía (MEG) y la resonancia magnética funcional (fMRI), no existe ningún punto de referencia sistemático.

El resultado: las afirmaciones de que los modelos fundamentales son “generalizables” o “fundacionales” a menudo se basan en tareas seleccionadas sin un punto de referencia común.

¿Qué es NeuralBench?

NeuralBench se basa en tres paquetes principales de Python que forman una canalización modular.

NeuralFetch maneja la adquisición de conjuntos de datos, extrayendo datos seleccionados de repositorios públicos, incluidos OpenNeuro, DANDI y NEMAR. NeuralSet prepara datos como cargadores de datos listos para PyTorch, envolviendo herramientas de neurociencia existentes como MNE-Python y nilearn para el preprocesamiento, y HuggingFace para extraer incrustaciones de estímulos (para tareas que involucran imágenes, voz o texto). NeuralTrain proporciona código de entrenamiento modular basado en PyTorch-Lightning, Pydantic y la biblioteca de ejecución y almacenamiento en caché exca.

Una vez instalado mediante pip install neuralbench, el marco se controla mediante una interfaz de línea de comandos (CLI). Ejecutar una tarea es tan simple como tres comandos: descargar los datos, preparar el caché y ejecutar. Cada tarea se configura a través de un archivo YAML liviano que especifica la fuente de datos, las divisiones de entrenamiento/validación/prueba, los pasos de preprocesamiento, el procesamiento de destino, los hiperparámetros de entrenamiento y las métricas de evaluación.

https://ai.meta.com/research/publications/neuralbench-a-unifying-framework-to-benchmark-neuroai-models/

Qué cubre NeuralBench-EEG v1.0

La primera versión se centra en EEG y abarca ocho categorías de tareas: decodificación cognitiva (imagen, oración, habla, mecanografía, video y decodificación de palabras), interfaz cerebro-computadora (BCI), respuestas evocadas, tareas clínicas, estado interno, sueño, fenotipado y varios.

Se comparan tres clases de modelos:

Arquitecturas específicas de tareas (~1,5K–4,2M parámetros, entrenados desde cero): ShallowFBCSPNet, Deep4Net, EEGNet, BDTCN, ATCNet, EEGConformer, SimpleConvTimeAgg y CTNet. Modelos básicos de EEG (~3,2 millones a 157,1 millones de parámetros, previamente entrenados y ajustados): BENDR, LaBraM, BIOT, CBraMod, LUNA y REVE. Líneas base de características hechas a mano: canalizaciones de estilo sklearn que utilizan representaciones matriciales definidas positivas (SPD) simétricas alimentadas en regresión logística o Ridge.

Todos los modelos básicos se ajustan de extremo a extremo utilizando una receta de entrenamiento compartida: optimizador AdamW, tasa de aprendizaje de 10⁻⁴, caída de peso de 0,05, recocido de coseno con 10 % de calentamiento, hasta 50 épocas con parada temprana (paciencia = 10). La única excepción es BENDR, para el cual la tasa de aprendizaje se reduce a 10⁻⁵ y el recorte de gradiente se aplica a 0,5 para obtener curvas de aprendizaje estables. De lo contrario, esta estandarización intencional elimina los trucos de optimización específicos del modelo, como la caída de la tasa de aprendizaje por capas, el sondeo de dos etapas o LoRA, de modo que la arquitectura y la metodología de preentrenamiento son lo que realmente se evalúa.

La división de datos se maneja de manera diferente según el tipo de tarea para reflejar las limitaciones de generalización del mundo real: las divisiones predefinidas fueron proporcionadas por el equipo de investigación del conjunto de datos, dejar de lado el concepto para las tareas de decodificación cognitiva (todos los sujetos se ven en el entrenamiento, pero se utiliza un conjunto de estímulos reservados para las pruebas), divisiones entre sujetos para la mayoría de las tareas clínicas y BCI, y divisiones dentro del sujeto para conjuntos de datos con muy pocos participantes. Cada modelo se entrena tres veces por tarea utilizando tres semillas aleatorias diferentes.

Las métricas de evaluación están estandarizadas por tipo de tarea: precisión equilibrada para clasificación binaria y multiclase, puntuación macro F1 para clasificación multietiqueta, correlación de Pearson para regresión y precisión de los cinco primeros para tareas de recuperación. Todos los resultados se informan además como puntuaciones normalizadas (s̃), donde 0 corresponde a un rendimiento de nivel ficticio y 1 corresponde a un rendimiento perfecto, lo que permite comparaciones justas entre tareas independientemente de la escala métrica.

Una nota metodológica importante: algunos modelos básicos de EEG se entrenaron previamente en conjuntos de datos que se superponen con los conjuntos de evaluación posteriores de NeuralBench. En lugar de descartar estos resultados, el punto de referencia los marca con barras hash en las cifras de resultados para que los lectores puedan identificar posibles fugas de datos previos al entrenamiento; no se observó ninguna tendencia fuerte que sugiera que las fugas inflan el rendimiento, pero se preserva la transparencia.

El punto de referencia ofrece dos variantes: NeuralBench-EEG-Core v1.0, que utiliza un único conjunto de datos representativo por tarea para una amplia cobertura, y NeuralBench-EEG-Full v1.0, que se expande hasta 24 conjuntos de datos por tarea para estudiar la variabilidad dentro de la tarea en el hardware de grabación, los laboratorios y las poblaciones de sujetos. Un τ de Kendall de 0,926 (p < 0,001) entre las clasificaciones Core y Full confirma que la variante Core es un proxy confiable, aunque algunas posiciones del modelo cambian, incluido CTNet que supera a LUNA cuando se incluyen más conjuntos de datos.

https://ai.meta.com/research/publications/neuralbench-a-unifying-framework-to-benchmark-neuroai-models/

Dos hallazgos clave

Conclusión 1: Los modelos básicos solo superan marginalmente a los modelos de tareas específicas. Los modelos mejor clasificados en general son REVE (69,2 millones de parámetros, rango normalizado medio 0,20), LaBraM (5,8 millones, rango 0,21) y LUNA (40,4 millones, rango 0,30). Pero varios modelos de tareas específicas entrenados desde cero: CTNet (150.000 parámetros, clasificación 0,32), SimpleConvTimeAgg (4,2 millones, clasificación 0,35) y Deep4Net (146.000, clasificación 0,43) le siguen de cerca. CTNet en realidad supera al modelo básico LUNA para ocupar el tercer lugar en la variante completa, a pesar de tener aproximadamente 270 veces menos parámetros. Esto muestra que la brecha entre los modelos básicos y específicos de tareas es lo suficientemente estrecha como para que ampliar la cobertura del conjunto de datos sea suficiente para cambiar las clasificaciones globales.

Conclusión 2: Muchas tareas siguen siendo realmente difíciles. Las tareas de decodificación cognitiva (recuperar representaciones densas de imágenes, habla, oraciones, videos o palabras de la actividad cerebral) son particularmente desafiantes, e incluso los mejores modelos obtienen puntajes muy por debajo del límite máximo. Tareas como imágenes mentales, despertar del sueño, decodificación de psicopatología e imágenes motoras transversales y clasificación P300 con frecuencia producen un rendimiento cercano al nivel simulado. Estas tareas representan los mejores puntos de referencia para realizar pruebas de estrés en la próxima generación de modelos básicos de EEG.

Las tareas que se acercan a la saturación incluyen clasificación SSVEP, detección de patologías, detección de convulsiones, clasificación de etapas del sueño y tareas de fenotipado como regresión de edad y clasificación de sexo.

Más allá del EEG: MEG y fMRI

Incluso en esta versión inicial centrada en EEG, NeuralBench ya admite tareas de MEG y fMRI como prueba de concepto. En particular, el modelo REVE, previamente entrenado exclusivamente con datos de EEG, logra el mejor rendimiento entre todos los modelos probados en la tarea de decodificación de escritura en MEG. Esta es una señal temprana sorprendente de que las representaciones previamente entrenadas con EEG pueden transferirse de manera significativa entre las modalidades de registro cerebral, una hipótesis que el marco está en posición de probar rigurosamente en futuras versiones.

La infraestructura está diseñada explícitamente para la expansión a EEG intracraneal (iEEG), espectroscopia funcional de infrarrojo cercano (fNIRS) y electromiografía (EMG).

Cómo empezar

La instalación requiere un solo comando: pip install neuralbench. A partir de ahí, ejecutar la tarea de clasificación de estímulos audiovisuales en EEG se ve así:

neuralbench eeg audiovisual_stimulus –download # Descargar datos neuralbench eeg audiovisual_stimulus –prepare # Preparar caché neuralbench eeg audiovisual_stimulus # Ejecutar la tarea

Para ejecutar las 36 tareas en los 14 modelos de EEG, el indicador -m all_classic all_fm maneja la orquestación. Los requisitos completos de almacenamiento de referencia son sustanciales: aproximadamente 11 TB en total (~3,2 TB de datos sin procesar, ~7,8 TB de caché preprocesada, ~333 GB de resultados registrados), con una GPU de al menos 32 GB de VRAM por trabajo, aunque el uso máximo promedio de GPU medido en todos los experimentos es de solo ~1,3 GB (máximo ~30,3 GB).

La ejecución completa de NeuralBench-EEG-Full v1.0 requiere aproximadamente 1751 horas de GPU en 4947 experimentos.

Conclusiones clave

NeuralBench-EEG v1.0 de Meta AI es un punto de referencia de EEG abierto: 36 tareas, 94 conjuntos de datos, 9478 sujetos y 14 arquitecturas de aprendizaje profundo en una interfaz estandarizada. A pesar de tener hasta 270 veces más parámetros, los modelos básicos de EEG como REVE solo superan marginalmente a los modelos livianos para tareas específicas como CTNet (150 000 parámetros) en todo el benchmark. Las tareas de decodificación cognitiva (habla, vídeo, oración, decodificación de palabras a partir de la actividad cerebral) y las predicciones clínicas siguen siendo un gran desafío, y la mayoría de los modelos obtienen puntuaciones cercanas al nivel ficticio. REVE, previamente entrenado solo con datos de EEG, superó a todos los modelos en la decodificación de escritura MEG, una señal temprana de transferencia significativa entre modalidades. NeuralBench tiene licencia del MIT.

Consulte el repositorio de Paper y GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros