Meta AI propone atención múltiple (MTA): un nuevo método de atención que permite a los LLM acondicionar sus pesos de atención en múltiples consultas y vectores clave

Los modelos de lenguaje grande (LLM) se benefician significativamente de los mecanismos de atención, lo que permite la recuperación efectiva de la información contextual. Sin embargo, los métodos de atención tradicionales dependen principalmente de la atención de un solo token, donde cada peso de atención se calcula a partir de un solo par de consultas y vectores clave. Este diseño restringe inherentemente la capacidad del modelo para discernir contextos que requieren la integración de múltiples señales de token, lo que limita su efectividad en dependencias lingüísticas complejas. Por ejemplo, la identificación de oraciones que contienen simultáneamente tanto “Alice” como “Rabbit” es un desafío porque los mecanismos de atención convencionales luchan por integrar múltiples señales de atención separadas de manera eficiente sin aumentar sustancialmente la complejidad del modelo.

Meta AI aborda esta limitación al introducir atención múltiple (MTA), un mecanismo de atención avanzado que condiciona a los pesos de atención simultáneamente en múltiples consultas y vectores clave. MTA integra operaciones de convolución sobre consultas, claves y cabezas de atención, mejorando así la precisión y eficiencia de la recuperación de información contextual. Específicamente, el marco MTA consta de dos componentes convolucionales: convolución clave-Quera, que agrega múltiples señales de token dentro de los jefes de atención individuales, y la convolución de mezcla de cabeza, que facilita el intercambio de información entre diferentes cabezas de atención. Además, la implementación emplea la normalización del grupo con escala dependiente de la profundidad para estabilizar el flujo de gradiente, mejorando aún más la estabilidad y la eficacia del entrenamiento del modelo.

A nivel técnico, MTA modifica los cálculos de atención convencionales al incorporar una operación de convolución bidimensional en los logits de atención antes de la normalización Softmax. Esta convolución permite que consultas y claves adyacentes influyan mutuamente en los puntajes de atención, lo que permite el mecanismo de atención para identificar relaciones contextuales que involucren múltiples tokens con mayor precisión. En consecuencia, el modelo agrega eficientemente las interacciones de token local sin aumentar sustancialmente el número de parámetros o la dimensionalidad de los vectores de atención. Además, la convolución de la cabeza promueve la transferencia efectiva de conocimiento entre los jefes de atención, amplificando selectivamente las señales de contexto relevantes al tiempo que mitigan la información menos pertinente. Colectivamente, estas mejoras producen un mecanismo de atención más robusto capaz de capturar interacciones complejas de múltiples token.

Las evaluaciones empíricas validan la eficacia de MTA en varios puntos de referencia. En una tarea motivadora estructurada diseñada explícitamente para ilustrar las deficiencias de los mecanismos de atención de un solo token, MTA demostró un rendimiento casi perfecto, logrando una tasa de error de solo 0.1%, en contraste con los modelos de transformadores estándar que exhibían tasas de error superiores al 50%. Otros experimentos a gran escala que involucran un modelo de parámetro de 880 m entrenado en 105 mil millones de tokens mostraron que la MTA superaba constantemente las arquitecturas de referencia. MTA logró puntajes de perplejidad de validación superior en conjuntos de datos como Arxiv, Github y Wikipedia. Específicamente, en las tareas que requieren una comprensión de contexto extendido, como los puntos de referencia de aguja-en el Haystack y Babilong, MTA superó significativamente el rendimiento de los modelos de transformadores estándar. En la tarea de aguja en la aguja en el haystack con contextos de token 4K que contienen múltiples agujas, MTA alcanzó precisiones que van del 67% al 97.6%, superando los modelos estándar por márgenes sustanciales.

En resumen, la atención múltiple (MTA) presenta un avance refinado en los mecanismos de atención al abordar las limitaciones fundamentales de la atención tradicional de una sola token. Aprovechando las operaciones convolucionales para integrar simultáneamente múltiples interacciones de clave de consulta, MTA mejora la capacidad de los modelos de lenguaje para manejar dependencias contextuales intrincadas. Estas mejoras metodológicas facilitan un rendimiento más preciso y eficiente, particularmente en escenarios que involucran interacciones complejas de token y comprensión contextual de largo alcance. A través de modificaciones específicas a los mecanismos de atención estándar, MTA contribuye significativamente a la evolución de modelos de lenguaje más sofisticados, precisos y computacionalmente eficientes.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre código abierto AI: Registro gratuito + Certificado de Asistencia + Evento corto de 3 horas (12 de abril, 9 a.m. a 12 p.m. PST) + Hands on Workshop [Sponsored]


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.