Mit Astrocyte Transformer 01 Press.jpg

Las redes neuronales artificiales, modelos ubicuos de aprendizaje automático que pueden entrenarse para completar muchas tareas, se llaman así porque su arquitectura está inspirada en la forma en que las neuronas biológicas procesan la información en el cerebro humano.

Hace unos seis años, los científicos descubrieron un nuevo tipo de modelo de red neuronal más potente conocido como transformador. Estos modelos pueden lograr un rendimiento sin precedentes, como generar texto a partir de indicaciones con una precisión casi humana. Un transformador es la base de los sistemas de IA como ChatGPT y Bard, por ejemplo. Si bien son increíblemente efectivos, los transformadores también son misteriosos: a diferencia de otros modelos de redes neuronales inspirados en el cerebro, no ha quedado claro cómo construirlos utilizando componentes biológicos.

Ahora, investigadores del MIT, el MIT-IBM Watson AI Lab y la Escuela de Medicina de Harvard han elaborado una hipótesis que puede explicar cómo se podría construir un transformador utilizando elementos biológicos en el cerebro. Sugieren que una red biológica compuesta por neuronas y otras células cerebrales llamadas astrocitos podría realizar el mismo cálculo central que un transformador.

Investigaciones recientes han demostrado que los astrocitos, células no neuronales que abundan en el cerebro, se comunican con las neuronas y desempeñan un papel en algunos procesos fisiológicos, como la regulación del flujo sanguíneo. Pero los científicos todavía carecen de una comprensión clara de lo que hacen estas células computacionalmente.

Con el nuevo estudiopublicado esta semana en formato de acceso abierto en el procedimientos de la Academia Nacional de Cienciaslos investigadores exploraron el papel que juegan los astrocitos en el cerebro desde una perspectiva computacional y crearon un modelo matemático que muestra cómo podrían usarse, junto con las neuronas, para construir un transformador biológicamente plausible.

Su hipótesis proporciona información que podría impulsar futuras investigaciones neurocientíficas sobre cómo funciona el cerebro humano. Al mismo tiempo, podría ayudar a los investigadores de aprendizaje automático a explicar por qué los transformadores tienen tanto éxito en un conjunto diverso de tareas complejas.

“El cerebro es muy superior incluso a las mejores redes neuronales artificiales que hemos desarrollado, pero en realidad no sabemos exactamente cómo funciona el cerebro. Hay un valor científico en pensar en las conexiones entre el hardware biológico y las redes de inteligencia artificial a gran escala. Esto es neurociencia para IA e IA para neurociencia”, dice Dmitry Krotov, miembro del personal de investigación del MIT-IBM Watson AI Lab y autor principal del artículo de investigación.

Junto a Krotov en el artículo están el autor principal Leo Kozachkov, un postdoctorado en el Departamento de Ciencias Cognitivas y del Cerebro del MIT; y Ksenia V. Kastanenka, profesora asistente de neurobiología en la Escuela de Medicina de Harvard e investigadora asistente en el Instituto de Investigación General de Massachusetts.

Una imposibilidad biológica se vuelve plausible

Los transformadores funcionan de manera diferente a otros modelos de redes neuronales. Por ejemplo, una red neuronal recurrente entrenada para el procesamiento del lenguaje natural compararía cada palabra de una oración con un estado interno determinado por las palabras anteriores. Un transformador, por otro lado, compara todas las palabras de la oración a la vez para generar una predicción, un proceso llamado autoatención.

Para que la autoatención funcione, el transformador debe tener todas las palabras listas en algún tipo de memoria, explica Krotov, pero esto no parecía biológicamente posible debido a la forma en que se comunican las neuronas.

Sin embargo, hace unos años, los científicos que estudiaban un tipo ligeramente diferente de modelo de aprendizaje automático (conocido como Memoria Asociada Densa) se dieron cuenta de que este mecanismo de autoatención podría ocurrir en el cerebro, pero solo si había comunicación entre al menos tres neuronas.

“El número tres realmente me llamó la atención porque en la neurociencia se sabe que estas células llamadas astrocitos, que no son neuronas, forman conexiones de tres vías con las neuronas, lo que se llama sinapsis tripartitas”, dice Kozachkov.

Cuando dos neuronas se comunican, una neurona presináptica envía sustancias químicas llamadas neurotransmisores a través de la sinapsis que la conecta con una neurona postsináptica. A veces, también se conecta un astrocito: envuelve un tentáculo largo y delgado alrededor de la sinapsis, creando una sinapsis tripartita (de tres partes). Un astrocito puede formar millones de sinapsis tripartitas.

El astrocito recoge algunos neurotransmisores que fluyen a través de la unión sináptica. En algún momento, el astrocito puede devolver la señal a las neuronas. Debido a que los astrocitos operan en una escala de tiempo mucho más larga que las neuronas (crean señales elevando lentamente su respuesta de calcio y luego disminuyéndola), estas células pueden retener e integrar la información que les comunican las neuronas. De esta forma, los astrocitos pueden formar una especie de búfer de memoria, dice Krotov.

“Si lo piensa desde esa perspectiva, los astrocitos son extremadamente naturales precisamente para el cálculo que necesitamos para realizar la operación de atención dentro de los transformadores”, agrega.

Construcción de una red de neuronas-astrocitos

Con esta idea, los investigadores formularon su hipótesis de que los astrocitos podrían desempeñar un papel en la forma en que calculan los transformadores. Luego se dispusieron a construir un modelo matemático de una red de neuronas y astrocitos que operaría como un transformador.

Tomaron las matemáticas básicas que componen un transformador y desarrollaron modelos biofísicos simples de lo que hacen los astrocitos y las neuronas cuando se comunican en el cerebro, basándose en una inmersión profunda en la literatura y la orientación de colaboradores neurocientíficos.

Luego combinaron los modelos de ciertas maneras hasta que llegaron a una ecuación de una red de neurona-astrocito que describe la autoatención de un transformador.

“A veces, nos dimos cuenta de que ciertas cosas que queríamos que fueran ciertas no podían implementarse de manera plausible. Entonces, tuvimos que pensar en soluciones alternativas. Hay algunas cosas en el documento que son aproximaciones muy cuidadosas de la arquitectura del transformador para poder igualarlo de una manera biológicamente plausible”, dice Kozachkov.

A través de su análisis, los investigadores demostraron que su red biofísica de neuronas y astrocitos teóricamente coincide con un transformador. Además, realizaron simulaciones numéricas alimentando imágenes y párrafos de texto a modelos de transformadores y comparando las respuestas con las de su red simulada de neuronas y astrocitos. Ambos respondieron a las indicaciones de manera similar, confirmando su modelo teórico.

“Después de haber permanecido eléctricamente silencioso durante más de un siglo de grabaciones cerebrales, los astrocitos son una de las células más abundantes, aunque menos exploradas, del cerebro. El potencial de liberar el poder computacional de la otra mitad de nuestro cerebro es enorme”, dice Konstantinos Michmizos, profesor asociado de informática en la Universidad de Rutgers, que no participó en este trabajo. «Este estudio abre un ciclo iterativo fascinante, desde la comprensión de cómo el comportamiento inteligente puede surgir realmente en el cerebro, hasta la traducción de hipótesis disruptivas en nuevas herramientas que exhiben una inteligencia similar a la humana».

El siguiente paso para los investigadores es dar el salto de la teoría a la práctica. Esperan comparar las predicciones del modelo con las que se han observado en experimentos biológicos y utilizar este conocimiento para refinar, o posiblemente refutar, su hipótesis.

Además, una implicación de su estudio es que los astrocitos pueden estar involucrados en la memoria a largo plazo, ya que la red necesita almacenar información para poder actuar sobre ella en el futuro. La investigación adicional podría investigar más a fondo esta idea, dice Krotov.

“Por muchas razones, los astrocitos son extremadamente importantes para la cognición y el comportamiento, y funcionan de manera fundamentalmente diferente a las neuronas. Mi mayor esperanza para este artículo es que catalice un montón de investigación en neurociencia computacional hacia las células gliales y, en particular, los astrocitos”, agrega Kozachkov.

Esta investigación fue apoyada, en parte, por la Fundación BrightFocus y el Instituto Nacional de Salud.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *