Screenshot 2024 04 06 At 11.30.23 Pm.png

Los modelos lineales basados ​​en atención están ganando atención por su velocidad de procesamiento más rápida y su rendimiento comparable al de los transformadores Softmax. Sin embargo, los modelos de lenguaje grande (LLM), debido a su gran tamaño y longitudes de secuencia más largas, ejercen una presión significativa sobre el hardware de GPU contemporáneo porque la memoria de una sola GPU limita la longitud máxima de secuencia de un modelo de lenguaje.

Las técnicas de paralelismo de secuencia (SP) se utilizan a menudo para dividir una secuencia larga en varias subsecuencias y entrenarlas en varias GPU por separado. Sin embargo, los métodos SP actuales subutilizan las características de atención lineal, lo que resulta en un paralelismo ineficiente y problemas de usabilidad.

Investigadores del Laboratorio de IA de Shanghai y TapTap presentan el secuencia de atención lineal paralela (LASP) técnica, que optimiza el paralelismo de secuencia en transformadores lineales. Emplea comunicación punto a punto (P2P) para un intercambio de estado eficiente entre GPU dentro o entre nodos. LASP maximiza el uso de trucos del núcleo del producto correcto en atención lineal. Es importante destacar que no depende de la partición de cabezales de atención, lo que lo hace adaptable a atenciones de múltiples cabezales, múltiples consultas y consultas agrupadas.

LASP emplea un enfoque de mosaico para dividir secuencias de entrada en fragmentos de subsecuencia distribuidos entre las GPU. Distingue el cálculo de la atención en intra-fragmentos e inter-fragmentos para utilizar la ventaja del producto correcto de la atención lineal. Los intra-fragmentos utilizan el cálculo de atención convencional, mientras que los inter-fragmentos explotan los trucos del núcleo. El método también incluye mecanismos de distribución de datos, paso hacia adelante y paso hacia atrás para mejorar la eficiencia del procesamiento paralelo.

LASP logra una mejora significativa del rendimiento para la atención lineal a través de un diseño de comunicación eficiente, superando a DeepSpeed-Ulysses en un 38% y a Megatron en un 136% en rendimiento con una longitud de secuencia de 256K en el modelo 1B. Además, LASP, con optimizaciones del sistema como la fusión del núcleo y el almacenamiento en caché de estado KV, admite longitudes de secuencia más largas dentro del mismo clúster, alcanzando 2048 K para el modelo 1B y 512 K para el modelo 7B.

Las contribuciones clave de esta investigación son las siguientes:

  • Una nueva estrategia de SP adaptada a la atención lineal: permitir que los modelos basados ​​en atención lineal se escalen para secuencias largas sin estar limitados por una sola GPU.
  • Gastos generales de comunicación independiente de la longitud de la secuencia: su elegante mecanismo de comunicación aprovecha el truco del núcleo del producto correcto de la atención lineal para garantizar que el intercambio de estados intermedios de atención lineal sea independiente de la longitud de la secuencia.
  • Implementación compatible con GPU: optimizó la ejecución de LASP en GPU a través de una meticulosa ingeniería de sistemas, incluida la fusión del kernel y el almacenamiento en caché de KV State.
  • Compatibilidad con datos paralelos: LASP es compatible con todos los métodos DDP a nivel de lotes, como PyTorch/Legacy DDP, FSDP y optimizadores de la serie ZeRO.

En conclusión, LASP se introduce para superar las limitaciones de los métodos SP existentes en transformadores lineales aprovechando las características de atención lineal para mejorar la eficiencia y usabilidad del paralelismo. La implementación de comunicación P2P, fusión de kernel y almacenamiento en caché de estado KV reduce el tráfico de comunicación y mejora la utilización del clúster de GPU. La compatibilidad con los métodos DDP a nivel de lotes garantiza la practicidad para la capacitación distribuida a gran escala. Los experimentos destacan las ventajas de LASP en escalabilidad, velocidad, uso de memoria y rendimiento de convergencia en comparación con los métodos SP existentes.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.