Screenshot 2024 09 13 At 5.26.21 Pm.png

Los modelos de lenguaje grandes (LLM) han ganado una importancia significativa en el aprendizaje automático moderno, en gran medida debido al mecanismo de atención. Este mecanismo emplea un mapeo de secuencia a secuencia para construir representaciones de tokens que tienen en cuenta el contexto. Tradicionalmente, la atención se basa en la función softmax (SoftmaxAttn) para generar representaciones de tokens como combinaciones convexas de valores dependientes de los datos. Sin embargo, a pesar de su adopción generalizada y su eficacia, SoftmaxAttn enfrenta varios desafíos. Un problema clave es la tendencia de la función softmax a concentrar la atención en un número limitado de características, lo que podría pasar por alto otros aspectos informativos de los datos de entrada. Además, la aplicación de SoftmaxAttn requiere una reducción fila por fila a lo largo de la longitud de la secuencia de entrada, lo que puede ralentizar significativamente los cálculos, en particular cuando se utilizan núcleos de atención eficientes.

Las investigaciones recientes en el campo del aprendizaje automático han explorado alternativas a la función softmax tradicional en varios dominios. En la clasificación supervisada de imágenes y el aprendizaje autosupervisado, existe una tendencia hacia el uso de condicionales de Bernoulli puntuales más ricos parametrizados por funciones sigmoideas, alejándose de las distribuciones categóricas condicionales de salida típicamente parametrizadas por softmax. Algunos estudios han investigado la sustitución de softmax por activación ReLU tanto en contextos prácticos como teóricos. Otras exploraciones incluyen el uso de activación ReLU2, atención puramente lineal y mecanismos de atención basados ​​en similitud de coseno. Un enfoque notable escaló varias funciones de activación por n^(-α), donde n es la longitud de la secuencia y α es un hiperparámetro, para reemplazar a softmax. Sin embargo, este método enfrentó problemas de rendimiento sin una inicialización adecuada y el uso de LayerScale. Estos diversos enfoques apuntan a abordar las limitaciones de la atención basada en softmax, buscando alternativas más eficientes y efectivas para la representación de tokens conscientes del contexto.

Los investigadores de Apple presentan un enfoque robusto para los mecanismos de atención al reemplazar la operación softmax por filas con una no linealidad sigmoidea por elementos. Los investigadores identifican que el principal desafío con la atención sigmoidea ingenua (SigmoidAttn) radica en las grandes normas de atención inicial. Para abordar esto, proponen varias soluciones y realizan contribuciones significativas al campo. Primero, demuestran que SigmoidAttn es un aproximador de función universal para tareas de secuencia a secuencia. Segundo, proporcionan un análisis de la regularidad de SigmoidAttn y establecen su límite jacobiano en el peor de los casos. Tercero, mejoran el algoritmo FLASHATTENTION2 con un kernel sigmoide, lo que resulta en reducciones sustanciales en el tiempo de reloj de inferencia del kernel y el tiempo de inferencia del mundo real. Por último, muestran que SigmoidAttn funciona de manera comparable a SoftmaxAttn en varias tareas y dominios, lo que destaca su potencial como una alternativa viable en los mecanismos de atención.

SigmoidAttn, la alternativa propuesta a la atención softmax tradicional, se analiza desde dos perspectivas cruciales. En primer lugar, los investigadores demuestran que los transformadores que utilizan SigmoidAttn conservan la propiedad de aproximación universal (UAP), lo que garantiza su capacidad de aproximarse a funciones secuencia a secuencia continuas con precisión arbitraria. Esta propiedad es vital para mantener la capacidad de generalización y representación de la arquitectura. La prueba adapta el marco utilizado para los transformadores clásicos, con modificaciones clave para dar cabida a la función sigmoidea. En particular, SigmoidAttn requiere al menos cuatro cabezas de atención y desplazamientos tanto en las definiciones de consulta como de clave para aproximarse a la operación de desplazamiento selectivo necesaria, en comparación con el requisito de la atención softmax de dos cabezas y desplazamientos solo en la definición de consulta.

En segundo lugar, el estudio examina la regularidad de SigmoidAttn calculando su constante de Lipschitz. El análisis revela que la constante de Lipschitz local de SigmoidAttn es significativamente menor que el peor escenario posible para la atención softmax. Esto implica que SigmoidAttn muestra una mejor regularidad, lo que potencialmente conduce a una mayor robustez y facilidad de optimización en redes neuronales. El límite para SigmoidAttn depende de la norma cuadrática promedio de la secuencia de entrada en lugar del valor más grande, lo que permite la aplicación a distribuciones ilimitadas con segundos momentos acotados.

Los investigadores realizaron evaluaciones exhaustivas de SigmoidAttn en varios dominios para validar su eficacia. Estas evaluaciones abarcaron la clasificación supervisada de imágenes mediante transformadores de visión, el aprendizaje de representación de imágenes autosupervisado con métodos como SimCLR, BYOL y MAE, así como el reconocimiento automático de voz (ASR) y el modelado autorregresivo del lenguaje (LM). Además, probaron la generalización de la longitud de secuencia en TED-LIUM v3 para ASR y en experimentos sintéticos a pequeña escala.

Los resultados demuestran que SigmoidAttn iguala consistentemente el rendimiento de SoftmaxAttn en todos los dominios y algoritmos probados. Esta paridad de rendimiento se logra al mismo tiempo que ofrece mejoras en la velocidad de entrenamiento e inferencia, como se detalla en secciones anteriores. Las observaciones clave de los estudios empíricos incluyen:

1. Para las tareas de visión, SigmoidAttn resulta eficaz sin necesidad de un término de sesgo, excepto en el caso de MAE. Sin embargo, depende de LayerScale para igualar el rendimiento de SoftmaxAttn sin hiperparámetros.

2. En las tareas de modelado del lenguaje y ASR, el rendimiento es sensible a la norma inicial de la salida de atención. Para abordar esto, es necesaria la modulación a través de incrustaciones posicionales relativas como ALiBi, que desplaza la masa logit al régimen cero bajo SigmoidAttn, o la inicialización adecuada del parámetro b para lograr un efecto similar.

Estos hallazgos sugieren que SigmoidAttn es una alternativa viable a SoftmaxAttn, que ofrece un rendimiento comparable en una amplia gama de aplicaciones y al mismo tiempo proporciona ventajas computacionales potenciales.

Este estudio presenta un análisis exhaustivo de la atención sigmoidea como posible reemplazo de la atención softmax en arquitecturas de transformadores. Los investigadores brindan fundamentos teóricos y evidencia empírica para respaldar la viabilidad de este enfoque alternativo. Demuestran que los transformadores que utilizan la atención sigmoidea conservan la propiedad crucial de ser aproximadores de funciones universales y, al mismo tiempo, exhiben una regularidad mejorada en comparación con sus contrapartes softmax. El estudio identifica dos factores clave para la implementación exitosa de la atención sigmoidea: El uso de LayerScale y el Prevención de grandes normas de atención inicialEstos conocimientos contribuyen a establecer las mejores prácticas para aplicar la atención sigmoidea en los modelos de transformadores. Además, los investigadores presentan FLASHSIGMOID, una variante de la atención sigmoidea que hace un uso eficiente de la memoria y que logra una aceleración significativa del 17 % en el rendimiento del núcleo de inferencia. Los experimentos exhaustivos realizados en varios dominios (incluido el procesamiento del lenguaje, la visión artificial y el reconocimiento del habla) muestran que la atención sigmoidea correctamente normalizada coincide de manera consistente con el rendimiento de la atención softmax en diversas tareas y escalas.


Echa un vistazo a la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.