Los modelos de lenguaje grande (LLM) han ganado una atención significativa en los últimos años, pero comprender sus mecanismos internos sigue siendo desafiante. Al examinar los cabezales de atención individuales en los modelos de transformadores, los investigadores han identificado funcionalidades específicas en algunas cabezas, como cabezas de inducción que predicen tokens como ‘Potter’ siguiendo ‘Harry’ cuando la frase aparece en contexto. Los estudios de ablación confirman la relación causal de estos jefes con los comportamientos del modelo. Sin embargo, la mayoría de los cabezales de atención distribuyen el enfoque en diversos contextos sin una funcionalidad clara. El desafío radica en interpretar estos complejos patrones de atención, ya que a menudo ocurre la colaboración entre encabezados en lugar de la funcionalidad aislada. Este fenómeno se asemeja a la superposición en la interpretación neuronal, lo que sugiere la existencia de superposición de atención en los mecanismos de autoatensión de la cabeza múltiple (MHSA). Comprender estas interacciones complejas es crucial para desarrollar modelos de lenguaje más transparentes y controlables.
Investigaciones anteriores han hecho avances significativos para explicar la funcionalidad de la cabeza de atención individual utilizando técnicas como parches de activación y parches de ruta. Estos enfoques han identificado varios cabezales de atención especializados en los modelos de transformadores, incluidos los cabezales de composición, los cabezales de inducción, los cabezales de los movimientos de nombre, los cabezales de comparación de números, los cabezales de supresión de copias, los cabezales sucesores y los cabezales de recuperación de contexto largo. Sin embargo, la hipótesis de superposición sugiere que las neuronas se relacionan con múltiples características subyacentes no ortogonales en lugar de funcionalidades únicas. Los autoencoders escasos han surgido como un método prometedor para extraer conjuntos de características escasas y comprensibles de redes neuronales. El éxito de estos autoencoders demuestra la universalidad de la superposición en varias dimensiones, incluido el tamaño del modelo, los tipos de arquitectura e incluso las diferentes modalidades. Estos métodos, aunque valiosos, aún luchan por explicar completamente las complejas interacciones entre los cabezales de atención y su comportamiento colaborativo en los modelos de lenguaje.
La investigación del Instituto de Innovación de Shanghai, OpenMoss Team, School of Computer Science, Fudan University Introducción Atención escasa de bajo rango (Lorsa)un enfoque robusto para desenredar las unidades de atención atómica de la superposición de atención. Lorsa reemplaza la autoatención de múltiples cabezas múltiples estándar con un conjunto de cabezales de atención sobrecompleta que cuentan con circuitos OV y restricciones de escasez de una sola dimensión. Para evaluar Lorsa, los investigadores desarrollaron una interfaz de exploración que proporcione información integral sobre cada cabeza de lorsa, evaluando cuantitativamente la interpretabilidad a través de activaciones superiores y patrones de atribución. Los resultados demuestran que la monosemántica de Lorsa se compara favorablemente con las características escasas de autoencoder. El método se probó tanto en los modelos Pythia-160M y LLAMA-3.1-8B, identificando con éxito mecanismos de atención conocidos como cabezas de inducción, cabezas de nombre de nombre, cabezas sucesoras y sumideros de atención. Un análisis posterior reveló cabezas lorsa específicas de aritmética en LLAMA-3.1-8B e identificó cabezales de anclaje temáticos que exhiben patrones de atención de largo alcance específicos del tema. Este enfoque proporciona una visibilidad sin precedentes en los mecanismos de atención del transformador.
La superposición de atención en los modelos de transformadores es paralelo a cómo las neuronas representan más características que sus dimensiones. La investigación plantea la hipótesis de que MHSA comprende múltiples unidades de atención en la superposición, cada una asistiendo entre pares de tokens específicos con operaciones de lectura/escritura interpretables en la corriente residual. Esta hipótesis sugiere que las unidades de atención atómica se extienden a través de múltiples cabezas MHSA, mientras que las cabezas individuales contienen múltiples unidades.
Tres piezas clave de evidencia apoyan la superposición de atención: Primero, las cabezas polisemánticas responden a insumos no relacionados, como las cabezas sucesoras que incrementan los días, los números y exhiben comportamientos acrónimos/de copia simultáneamente. En segundo lugar, la mayoría de los cabezales de atención carecen de patrones de interpretación claros, con estudios que muestran intentos de interpretación fallidos para más del 90% de las cabezas GPT-2. En tercer lugar, las observaciones directas muestran características de salida de atención aportadas colectivamente por múltiples cabezas, con aproximadamente el 25% de las unidades de atención aprendidas repartidas en múltiples cabezas MHSA.
Comprender la superposición de atención es importante por dos razones clave. Primero, el rastreo de circuito basado en atribución se vuelve desafiante cuando las características se calculan colectivamente, ya que los patrones de clave de consulta individual pueden ser engañados debido a la interferencia de otras características dentro de las mismas cabezas. En segundo lugar, la superposición de la estructura de la atención puede revelar importantes motivos de biología del modelo, planteando preguntas sobre por qué ciertas unidades de atención, como los cabezales de inducción, son implementadas por cabezas de MHSA individuales, mientras que otras existen en superposición.
La arquitectura de Lorsa aborda estos desafíos a través de varios elementos de diseño innovadores. Lorsa está entrenada para predecir las salidas de MHSA minimizando el error cuadrado medio. Emplea circuitos OV unidimensionales que restringen las operaciones de lectura/escritura a características específicas de la corriente residual, alineándose con la hipótesis de representación lineal. Para la consulta y los pesos clave, Lorsa implementa el intercambio de parámetros en cada cabezal DLORSA QK, manteniendo la eficiencia de los parámetros al tiempo que preserva el rendimiento. Esta estrategia hace que los circuitos Lorsa QK sean similares a MHSA pero con limitaciones de escasez en cada dimensión OV.
Lorsa emplea órdenes de magnitud más cabezas que MHSA estándar mientras se activa solo un pequeño subconjunto por token. Para cada posición, la salida de Lorsa agrega solo las cabezas de Top-K con los valores de activación más grandes, con el subconjunto de cabezal activo que varía dinámicamente en las posiciones de token. Este enfoque se asemeja a TOPK-SAES, seleccionando los componentes lineales más destacados. Si bien es similar a los autoencoders escasos de atención, Lorsa difiere en que sus activaciones de la cabeza se derivan de patrones de atención de tokens anteriores en lugar de codificadores lineales simples con Relu.
La evaluación de interpretabilidad de Lorsa emplea varias métricas clave para comprender la funcionalidad de la cabeza individual. Las activaciones principales ayudan a identificar patrones examinando los 16 tokens de mayor activación para cada cabezal de Lorsa en 100 millones de muestras de los datos detenidos. El análisis del patrón Z descompone las activaciones linealmente en contribuciones de token en forma de posiciones anteriores, revelando qué tokens anteriores contribuyen a las activaciones actuales. Este enfoque es paralelo al análisis de atribución de características directas utilizadas para la atención autoencoders escasas, pero con una atribución más simple que implica un solo circuito OV unidimensional y un solo circuito QK.
Un tablero de visualización proporciona información completa sobre cada cabezal de Lorsa. Por ejemplo, un cabezal de inducción específico de “usted” muestra varios patrones importantes: se lee principalmente de las características que indican que el token actual es “usted”/”su” a través de su vector de peso, activa fuertemente una característica de “decir usted” que amplifica el logit de “usted” y aumenta las probabilidades de predicción para varios tokens “usted”. El cálculo del patrón de atención QK implica las características del token actual en la posición de consulta y las características del token anterior donde el token actual es “usted”, con el token anterior a menudo son palabras como “con”, “gracias” o “hacer”. Curiosamente, esta cabeza de Lorsa en particular se distribuye casi igualmente entre dos cabezas MHSA (5.0 y 5.7), lo que demuestra cómo Lorsa desenreda con éxito las unidades de atención que existen en múltiples cabezas de atención estándar.
Los resultados confirman la efectividad de Lorsa en la identificación de mecanismos de atención conocidos en diferentes modelos. Utilizando el parche de ruta, los investigadores redescubrieron los cabezas monosemánticas previamente documentadas en Pythia-160m, incluidos los cabezales de inducción, los cabezales de los motores, los cabezales de supresión de copias, los cabezales sucesores y los sumideros de atención. En LLAMA-3.1-8B, identificaron cabezas lorsa específicas de aritmética que se activan durante operaciones aritméticas simples, con cada cabezal utilizando distintas heurísticas para obtener operandos. Además de esto, descubrieron cabezas de “anclaje temático” que exhiben atención de largo alcance a los tokens relacionados tópicamente, lo que sugiere un mecanismo para mantener representaciones de temas persistentes que sesgan las predicciones posteriores de token hacia el vocabulario y las estructuras apropiados para el dominio.
Atención escasa Desengange con éxito las unidades de atención atómica de la superposición de atención en los modelos de transformadores. El método recupera efectivamente los mecanismos de atención conocidos al tiempo que descubre nuevos comportamientos interpretables, lo que demuestra su valor para la interpretabilidad de la red neuronal. A pesar de estos avances, quedan desafíos significativos en desabrochar los circuitos QK para lograr cabezas completamente independientes y reducir los efectos de superposición. Las direcciones de investigación futuras incluyen explorar estructuras QK de baja dimensión, superposición de capas cruzadas y composición sistemática de Q/K/V.
Mira el Papel, Modelo en la cara abrazada y Página de Github. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.