Hundimientos de atención para revelar: el papel funcional del enfoque de primera token en la estabilización de modelos de idiomas grandes

Los LLM a menudo muestran un comportamiento peculiar donde el primer token en una secuencia atrae una atención inusualmente alta, conocida como un “sumidero de atención”. A pesar de que aparentemente no es importante, este token con frecuencia domina la atención en muchas cabezas en los modelos de transformadores. Si bien la investigación previa ha explorado cuándo y cómo ocurren los sumideros de atención, las razones detrás de su emergencia y papel funcional siguen sin estar claros. Estos patrones de atención están vinculados a los desafíos y la optimización en LLM, como la cuantización, el almacenamiento en caché de valor clave, la atención de la transmisión e incluso las vulnerabilidades de seguridad, destacando su importancia y la necesidad de una comprensión más profunda.

Investigadores de la Universidad de Oxford, NUS y Google Deepmind exploraron por qué se hunde la atención, donde los modelos se centran en gran medida en el primer token, emergen en LLMS. Al contrario de los esfuerzos pasados ​​para reducirlos, argumentan que estos sumideros cumplen un papel funcional al evitar la mezcla excesiva de las representaciones de token, lo que puede conducir al colapso o inestabilidad en los transformadores profundos. El token ⟨bos⟩ a menudo atrae la mayoría de la atención, limitando la propagación de perturbaciones y estabilizando el modelo. Los experimentos en modelos como Gemma 7B y Llama 3.1 405b confirman que los sumideros de atención se vuelven más prominentes en modelos más profundos y contextos más largos, lo que respalda su teoría.

El estudio explora cómo los transformadores solo decodificadores, la arquitectura detrás de la mayoría de los modelos de lenguaje modernos, usan mecanismos de atención para procesar secuencias token por token. En tales modelos, cada token solo puede atender tokens pasados ​​debido al enmascaramiento causal. Un fenómeno recurrente en estos modelos es el surgimiento de “sumideros de atención”, se realizan como el comienzo de la secuencia (⟨bos⟩) que atrae desproporcionadamente la atención en múltiples cabezas y capas. Si bien estos sumideros se consideraban previamente como artefactos de grandes activaciones de llave y consultas, este trabajo argumenta que son vitales para mantener representaciones estables, especialmente en secuencias largas. Al concentrar la atención, los sumideros evitan la mezcla excesiva de información entre capas, ayudando a preservar la singularidad de las representaciones de tokens.

El estudio conecta los sumideros de atención con problemas como el colapso de rango y la exceso de escuadra, lo que degrada el rendimiento del modelo al comprimir diversas entradas en representaciones indistintas. Utiliza herramientas matemáticas como las normas jacobianas para mostrar cómo los sumideros de atención reducen la sensibilidad a las perturbaciones, actuando efectivamente como estabilizadores que evitan el colapso representativo. Los experimentos en modelos como Gemma 7b confirman que la eliminación de la atención se hunde aumenta la difusión de información, mientras que su presencia mantiene patrones de atención más nítidos y localizados. Por lo tanto, los sumideros de atención no son solo un efecto secundario, sino una característica estructural que respalda la capacidad del transformador para manejar dependencias profundas y de largo alcance.

El estudio investiga si el token de inicio de secuencia (⟨bos⟩) tiene algún papel especial en la formación de sumideros de atención en los modelos de idiomas. A través de una serie de experimentos que utilizan diferentes estrategias de empaque y enmascaramiento de datos, los investigadores encuentran que la atención se hunde constantemente se forman en el primer token de la entrada, ya sea que esté o no explícitamente como ⟨bos⟩. Sin embargo, cuando ⟨bos⟩ se fija en el comienzo de cada secuencia durante el preado, el modelo aprende a confiar más en él para estabilizar la atención y evitar la mezcla excesiva de las representaciones de token. Eliminar ⟨bos⟩ durante la inferencia en tales modelos conduce a un colapso en la formación del sumidero y una caída significativa en el rendimiento. Esto resalta que aunque el primer token siempre juega un papel en el anclaje de la atención, la configuración del entrenamiento, especialmente la presencia consistente de ⟨bos⟩, fortalece importantemente este efecto.

En conclusión, el estudio argumenta que los sumideros de atención son una solución estructural para desafíos como la exceso de escuadra y la mezcla excesiva en transformadores profundos. Dirigir la atención hacia el token inicial, típicamente ⟨bos⟩, obtiene el modelo reduce su sensibilidad al ruido de entrada y retiene distintas representaciones de token en contextos largos. Los hallazgos también muestran que la longitud del contexto, la profundidad del modelo y las configuraciones de entrenamiento afectan significativamente cómo y dónde se forman los hundimientos. Al ofrecer ideas teóricas y validación empírica, el trabajo presenta la atención que no se hunde como peculiaridades sino como componentes que contribuyen a la estabilidad y eficiencia de los modelos de lenguaje grandes.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre código abierto AI: Registro gratuito + Certificado de Asistencia + Evento corto de 3 horas (12 de abril, 9 a.m. a 12 p.m. PST) + Hands on Workshop [Sponsored]


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.