Pensamientos decodificadores: la IA traduce escaneos cerebrales en texto
Qué útil sería saber qué estaba pensando la persona que estaba a su lado en el tren. O lo que su jefe iba a ofrecer como un aumento salarial o lo que un compañero potencial pensó en usted.
Esta habilidad es completamente futurista, por supuesto. Pero la base se está colocando ahora. Varios grupos han demostrado la capacidad de decodificar ciertos tipos de pensamientos, particularmente lo que las personas están viendo, en función de las imágenes funcionales de exploración cerebral de resonancia magnética. Este es un trabajo difícil y los resultados han sido, bueno, digamos el desarrollo.
Pero esta capacidad ahora está un paso más cerca gracias al trabajo de Weikang Qiu en la Universidad de Yale en New Haven, y sus colegas, que han desarrollado un sistema de IA capaz de decodificar los escaneos FMRI. La máquina, llamada Mindllm, produce una descripción de texto del proceso de pensamiento de un sujeto mientras mira una imagen.
El trabajo allana el camino para comprender mejor el cerebro humano y sus procesos de pensamiento. También mejora sustancialmente lo que se ha hecho antes. “Mindllm supera a las líneas de base, mejorando las tareas aguas abajo en un 12.0%, generalización de sujeto invisible en un 16.4%y una nueva adaptación de tareas en un 25.0%”, digamos Qiu y compañía.
Mapeo mental
La resonancia magnética funcional (fMRI) mide la actividad cerebral indirectamente al detectar cambios en los niveles de oxigenación de la sangre, conocido como la respuesta hemodinámica. Esta respuesta, que retrasa la actividad neuronal en varios segundos, proporciona un mapa espacial de activación cerebral, aunque con una resolución temporal limitada. La técnica ha proporcionado numerosas ideas sobre el papel que juegan varias partes del cerebro. Pero decodificar pensamientos e ideas complejas de estos escaneos ha sido un desafío de larga data.
Los métodos anteriores han luchado con precisión, variedad de tareas limitadas y dificultad para generalizar en diferentes individuos. La variabilidad en las estructuras cerebrales y los patrones de activación entre las personas hace que sea difícil desarrollar un modelo de decodificación universal.
Mindllm aborda estos desafíos de frente. Consiste en dos componentes principales: un codificador fMRI y un modelo de lenguaje grande (LLM). El codificador FMRI procesa los datos de escaneo y los convierte en un formato que el LLM puede entender. El LLM ha sido pretrontrado en una amplia gama de imágenes con su descripción de texto.
Los datos de FMRI consisten en escaneos cerebrales de sujetos que realizan tareas, como mirar una imagen y responder una pregunta simple al respecto. Por ejemplo, dada una imagen de un reloj junto a algunas letras, las tareas podrían ser determinar las letras en la imagen o, dada una imagen de un jugador de béisbol en el acto de lanzar, la pregunta podría ser qué objeto se está lanzando. Entonces, dados los datos de FMRI, Mindllm debe generar texto que describe la actividad cerebral capturada en el escaneo.
Una de las innovaciones clave de MindllM es su capacidad para centrarse en las partes más relevantes de los datos de fMRI, mejorando su precisión y eficiencia. Otro aspecto crítico de Mindllm es una técnica conocida como ajuste de instrucciones cerebral (bit). Esto implica capacitar al modelo en un conjunto de datos diverso de imágenes y texto, lo que le permite capturar una amplia gama de representaciones de las señales fMRI. El conjunto de datos Bit incluye tareas relacionadas con la percepción, la memoria, el procesamiento del lenguaje y el razonamiento complejo, asegurando que Mindllm pueda decodificar varios aspectos del pensamiento humano.
Las aplicaciones potenciales de Mindllm son significativas. Qui y Co dicen que podría usarse para desarrollar interfaces de computadora cerebrales que permitan a las personas controlar los dispositivos con sus pensamientos, revolucionando la tecnología de asistencia para las personas con discapacidad. El modelo también podría proporcionar información sobre los procesos cognitivos, ayudando a los investigadores a comprender mejor cómo funciona el cerebro.
Además, la capacidad de Mindllm para decodificar los pensamientos tiene implicaciones éticas que la sociedad tendrá que considerar. La posibilidad de decodificar pensamientos privados plantea preocupaciones sobre la privacidad y la seguridad, y es esencial establecer pautas éticas para el desarrollo y el despliegue de dicha tecnología. Qui y Co reconocen que no necesariamente sabrán cómo se usará. “Es común que los usuarios quieran adaptar la mente a sus propios casos de uso específicos”, dicen.
Hecho o ficción
A pesar de su impresionante desempeño, Mindllm todavía está en sus primeras etapas. Una limitación es que la fMRI no es una técnica de imagen en tiempo real y requiere un tiempo de procesamiento significativo más equipos voluminosos costosos. La investigación futura podría explorar técnicas de imágenes cerebrales más rápidas y portátiles, como electroencefalografía (EEG) o espectroscopía de infrarrojo cercano funcional, para complementar o reemplazar la FMRI en aplicaciones prácticas.
Además, los investigadores tienen como objetivo investigar la relación entre los datos de fMRI y otras modalidades, como los videos, para obtener una comprensión más integral de la actividad cerebral.
Ese es un trabajo interesante que muestra cómo las técnicas de lectura mental están progresando a pasos agigantados. La capacidad de decodificar los pensamientos ha sido durante mucho tiempo un elemento básico de la ciencia ficción, pero puede que no sea más larga hasta que adquiera el estado de los hechos científicos.
Ref: Mindllm: un modelo de sujeto-agnóstico y versátil para la decodificación de FMRI-to-Text: arxiv.org/abs/2502.15786