mi anterior artículoHablé sobre cómo la interpretabilidad mecanicista reinventa la atención en un transformadores para ser aditivos sin ninguna concatenación. Aquí, profundizaré en esta perspectiva y mostraré cómo resuena con ideas de LSTM, y cómo esta reinterpretación abre nuevas puertas para la comprensión.
Para fundamentarnos: el mecanismo de atención en los transformadores se basa en una serie de multiplicaciones de matriz que involucran la consulta (Q), clave (k), valor (V) y una matriz de proyección de salida (O). Tradicionalmente, cada cabeza calcula la atención de forma independiente, los resultados se concatenan y luego se proyectan a través de O. Pero desde una perspectiva mecanicista, se ve mejor que la proyección final por la matriz de peso o en realidad se aplica por cabeza (en comparación con la visión tradicional de concatenar los cabezas y luego proyectar). Este cambio sutil implica que las cabezas son independientes y separables hasta el final.
Patrones y mensajes
Una breve analogía sobre Q, K y V: cada matriz es una proyección lineal de la E. a k, que representa una clave (como en un hashmap) de la información real contenida en los tokens almacenados en V. De esta manera, los tokens de entrada en la secuencia saben a qué tokens atender y cuánto.
En esencia, Q y K determinan pertinenciay V tiene el contenido. Esta interacción le dice a cada token a qué otros atenderían, y por cuánto. Veamos ahora cómo ver las cabezas como independientes conduce a la opinión de que las matrices de valor y valor-salida de consulta por cabeza pertenecen a dos procesos independientes, a saber, patrones y mensajes.
Desempacando los pasos de atención:
- Multiplicar la matriz E de incrustación con wQ Para obtener el vector de consulta Q. De manera similar, obtenga el vector clave K y el valor de Vector V multiplicando E con Wk y wV
- Multiplicar con Q y KT. En la visión tradicional de la atención, se considera que esta operación determina qué otros tokens en la secuencia son los más relevantes para el token actual bajo consideración.
- Aplicar Softmax. Esto asegura que las puntuaciones de relevancia o similitud calculadas en el paso anterior se normalicen a 1, dando así una ponderación de la importancia de las otras fichas en contexto para la corriente.
- Multiplique con V. Este paso finaliza el cálculo de atención en el que ahora hemos extraído información de (es decir, atendida) la secuencia basada en las puntuaciones calculadas. Esto nos da una representación contextualmente enriquecida del token actual que codifica información sobre cómo otros tokens en la secuencia se relacionan con él.
- Finalmente, este resultado se proyecta nuevamente en el espacio del modelo usando O
El cálculo de la atención final es: QKTVO
Ahora, en lugar de ver esto como ((QKT) V) Ola interpretación mecanicista ve esto como el reorganizado (QKT) (Vo) dónde QKT forma el patrón y VO forma el mensaje. ¿Por qué importa esto? Porque nos permite separar limpiamente dos procesos conceptuales:
Mensajes (Vo): descubrir qué para transmitir (contenido).
Patrones (Qkᵀ): descubriendo dónde mirar (relevancia).
Diviendo más profundamente, recuerde que Q y K mismos se derivan de la matriz de incrustación E. Por lo tanto, también podemos escribir la ecuación como:
(EWQ) (WTkMI)
La interpretación mecanicista se refiere a wQWk como Wpag para la matriz de peso de patrón. Aquí, ewpag Se puede intuir como produciendo un patrón que luego se coincide con los incrustaciones en la otra E, obteniendo una puntuación que se puede usar para peso mensajes. Básicamente, esto reformula el cálculo de similitud en la atención a la “coincidencia de patrones” y nos da una relación directa entre el cálculo de similitud y los incrustaciones.
Del mismo modo, VO puede verse como EWVO ese es el por cabeza Vectores de valor, derivados de los incrustaciones y proyectados en el espacio del modelo. Una vez más, esta reformulación nos da una relación directa entre los incrustaciones y la producción final, en lugar de ver la atención como una secuencia de pasos. Otra diferencia es que si bien la visión tradicional de la atención implica que la información contenida en V es extraído Usando consultas representadas por Q, la vista mecanicista nos permite pensar que la información que se empaqueta en los mensajes es preferido por los incrustaciones en sí, y simplemente pesado por los patrones.
Finalmente, la atención utilizando la terminología del mensaje de patrones es esta: cada token en la incrustación utiliza los patrones que se obtuvieron para determinar cuánto del mensaje transmitir para predecir el siguiente token.
Lo que esto hace posible: transmisión residual
De mi anterior artículo Una vez más, donde vimos la reformulación aditiva de la atención de múltiples cabezas y esta en la que simplemente reformulamos el cálculo de la atención directamente en términos de incrustaciones, podemos ver que cada operación es como aditivo a en lugar de transformador la incrustación inicial. Las conexiones residuales en los transformadores que tradicionalmente se interpretan como conexiones de omisión se pueden reinterpretar como un residuo arroyo que lleva los incrustaciones y desde los cuales componentes como la atención de múltiples cabezas y MLP leen, hagan algo y agregue de nuevo a los incrustaciones. Esto hace que cada operación sea una actualización de una memoria persistente, no una cadena de transformación. La vista es, por lo tanto, conceptualmente más simple, y aún conserva la equivalencia matemática completa. Más sobre esto aquí.
¿Cómo se relaciona esto con LSTM?
Para resumir: LSTMS, o la memoria a largo plazo a largo plazo es un tipo de RNN diseñado para manejar el problema de gradiente de fuga frecuente en RNN almacenando información en una “celda” y que les permite aprender dependencias de largo alcance en los datos. La célula LSTM (vista anteriormente) tiene dos estados: el estado celular do Para memoria a largo plazo y estado oculto H para memoria a corto plazo.
También tiene puertas: olvida, entrada y salida que controlan el flujo de información dentro y fuera de la celda. Intuitivamente, la puerta Forget actúa como una palanca para determinar cuánto de la información a largo plazo no pasar o olvidar; La puerta de entrada actúa como una palanca para determinar cuánto de la entrada actual del estado oculto para agregar a la memoria a largo plazo; y la puerta de salida actúa como una palanca para determinar cuánto de modificado memoria a largo plazo para enviar más al estado oculto del próximo paso de tiempo.
La diferencia central entre un LSTM y un transformador es que LSTM es secuencial y local, ya que solo funciona en un token a la vez, mientras que un transformador funciona en paralelo en toda la secuencia. Pero son similares porque ambos son Mecanismos de actualización de estado fundamentalmenteespecialmente cuando el transformador se ve desde la lente mecanicista. Entonces, la analogía es esta:
- El estado celular es similar a la corriente residual; actuar como memoria a largo plazo en todo
- Input Gate hace el mismo trabajo que la coincidencia de patrones o la puntuación de similitud para determinar qué información es relevante para el token actual bajo consideración; La única diferencia de ser transformador hace esto en paralelo para todos los tokens en la secuencia
- La puerta de salida es similar a los mensajes y determina qué información emitir y cuán fuertemente.
Al reformular la atención como patrones (QKᵀ) y mensajes (VO), y reformular las conexiones residuales como una corriente residual persistente, la interpretación mecanicista ofrece una forma poderosa de conceptualizar los transformadores. Esto no solo mejora la interpretabilidad, sino que también alinea la atención con paradigmas más amplios del procesamiento de la información, lo que la está cerca del tipo de claridad conceptual que se ve en sistemas como LSTM.