Descifrando la universalidad neuronal en modelos de lenguaje GPT-2

A medida que los modelos de lenguajes grandes (LLM) ganan importancia en aplicaciones de alto riesgo, comprender sus procesos de toma de decisiones se vuelve crucial para mitigar los riesgos potenciales. La opacidad inherente de estos modelos ha impulsado la investigación sobre la interpretabilidad, aprovechando las ventajas únicas de las redes neuronales artificiales (al ser observables y deterministas) para el escrutinio empírico. Una comprensión integral de estos modelos no solo mejora nuestro conocimiento sino que también facilita el desarrollo de sistemas de IA que minimicen el daño.

Inspirándose en afirmaciones que sugieren la universalidad de las redes neuronales artificiales, en particular el trabajo de Olah et al. (2020b), este nuevo estudio realizado por investigadores del MIT y la Universidad de Cambridge explora la universalidad de neuronas individuales en modelos de lenguaje GPT2. La investigación tiene como objetivo identificar y analizar neuronas que exhiben universalidad en modelos con distintas inicializaciones. El alcance de la universalidad tiene profundas implicaciones para el desarrollo de métodos automatizados para comprender y monitorear los circuitos neuronales.

Metodológicamente, el estudio se centra en modelos de lenguaje autorregresivos basados ​​en transformadores, replicando la serie GPT2 y realizando experimentos con la familia Pythia. Las correlaciones de activación se emplean para medir si pares de neuronas se activan consistentemente con las mismas entradas en todos los modelos. A pesar de la conocida polisemia de las neuronas individuales, que representan múltiples conceptos no relacionados, los investigadores plantean la hipótesis de que las neuronas universales pueden exhibir una naturaleza más monosemántica, representando conceptos con significado independiente. Para crear condiciones favorables para las mediciones de universalidad, se concentran en modelos de la misma arquitectura entrenados con los mismos datos, comparando cinco inicializaciones aleatorias diferentes.

La operacionalización de la universalidad neuronal se basa en correlaciones de activación, específicamente, si pares de neuronas en diferentes modelos se activan consistentemente con las mismas entradas. Los resultados desafían la noción de universalidad en la mayoría de las neuronas, ya que sólo un pequeño porcentaje (1-5%) supera el umbral de universalidad.

Más allá del análisis cuantitativo, los investigadores profundizan en las propiedades estadísticas de las neuronas universales. Estas neuronas se destacan de las no universales y exhiben características distintivas en pesos y activaciones. Surgen interpretaciones claras que clasifican estas neuronas en familias, que incluyen unigrama, alfabeto, token anterior, posición, sintaxis y neuronas semánticas.

Los hallazgos también arrojan luz sobre los efectos posteriores de las neuronas universales, proporcionando información sobre sus funciones funcionales dentro del modelo. Estas neuronas a menudo desempeñan roles similares a los de acción, implementando funciones en lugar de simplemente extraer o representar características.

En conclusión, si bien aprovechar la universalidad resulta eficaz para identificar componentes interpretables del modelo y motivos importantes, sólo una pequeña fracción de las neuronas exhibe universalidad. No obstante, estas neuronas universales a menudo forman pares antípodas, lo que indica potencial para mejoras basadas en conjuntos en robustez y calibración.

Las limitaciones del estudio incluyen su enfoque en modelos pequeños y restricciones de universalidad específicas. Abordar estas limitaciones sugiere vías para futuras investigaciones, como replicar experimentos sobre la base de un diccionario sobrecompleto, explorar modelos más grandes y automatizar la interpretación utilizando modelos de lenguaje grandes (LLM). Estas direcciones podrían proporcionar conocimientos más profundos sobre las complejidades de los modelos lingüísticos, en particular su respuesta al estímulo o perturbación, el desarrollo sobre el entrenamiento y el impacto en los componentes posteriores.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.