NVIDIA AI Research presenta ‘Star Attention’: un novedoso algoritmo de IA para una inferencia eficiente de contexto largo de LLM

Los modelos de lenguaje grande (LLM) basados ​​en transformadores enfrentan desafíos importantes en el procesamiento eficiente de secuencias largas debido a la complejidad cuadrática del mecanismo de autoatención. Esto aumentará exponencialmente sus demandas computacionales y de memoria con la longitud de la secuencia, por lo que ampliar estos modelos a aplicaciones realistas como resumen de múltiples documentos, razonamiento basado en la recuperación o incluso análisis de código detallado a nivel de repositorio resulta imposible. Los enfoques actuales no logran gestionar secuencias que se extienden a millones de tokens sin una sobrecarga computacional considerable o una pérdida de precisión, lo que crea un obstáculo importante para su implementación efectiva en diversos casos de uso.

Se han propuesto varias estrategias para abordar estas ineficiencias. Los mecanismos de atención dispersa están diseñados para reducir la intensidad computacional, pero a menudo no logran preservar las dependencias globales más críticas, lo que resulta en un rendimiento de tareas degradado. Los métodos para mejorar la eficiencia de la memoria, como la compresión de caché de valores-clave y las aproximaciones de bajo rango, reducen el uso de recursos a costa de la escalabilidad y la precisión. Los sistemas distribuidos como Ring Attention mejoran la escalabilidad al distribuir los cálculos entre varios dispositivos. Sin embargo, estos enfoques implican una importante sobrecarga de comunicación y, por lo tanto, limitan su eficacia en secuencias extremadamente largas. Estas limitaciones apuntan a la necesidad urgente de un mecanismo innovador que pueda equilibrar la eficiencia, la escalabilidad y el rendimiento con precisión.

Los investigadores de NVIDIA presentaron Star Attention, un innovador mecanismo de atención de bloques dispersos diseñado para abordar estos desafíos. Star Attention esencialmente divide una secuencia de entrada en bloques más pequeños, precedidos por lo que los investigadores llaman un “bloque de anclaje”, que contiene mucha información a nivel global. Luego, bloquea el proceso de forma independiente en muchos hosts para reducir significativamente la complejidad de cálculo con la capacidad de capturar patrones globalmente. Los procesos de inferencia combinan las puntuaciones de atención para cada bloque utilizando un algoritmo softmax distribuido que permite una atención global eficiente al tiempo que minimiza la transmisión de datos. La integración del modelo con marcos anteriores basados ​​en Transformer no es intrusiva y no es obligatorio realizar ajustes, lo que la convierte en una solución bastante práctica para gestionar secuencias largas en la práctica del mundo real. La base técnica de Star Attention es un proceso dividido. En la primera fase, codificación de contexto, cada bloque de entrada se aumenta con un bloque de anclaje que garantiza que el modelo capture patrones de atención globales. Después del procesamiento, las cachés de valores-clave para los bloques de anclaje se descartan para conservar memoria. En la segunda fase, codificación de consultas y generación de tokens, las puntuaciones de atención se calculan localmente en cada host y se combinan mediante softmax distribuido, lo que permite que el modelo mantenga la eficiencia computacional y la escalabilidad.

Star Attention se evaluó según puntos de referencia como RULER, que incluye tareas de recuperación y razonamiento, y BABILong, que prueba el razonamiento de contexto prolongado. En secuencias de entre 16.000 y 1 millón de tokens, los modelos probados (Llama-3.1-8B y Llama-3.1-70B) se están probando utilizando HuggingFace Transformers y la GPU A100, que aprovecha bfloat16 para obtener la máxima velocidad.

Star Attention ofrece avances significativos tanto en velocidad como en precisión. Logra una inferencia hasta 11 veces más rápida en comparación con las líneas de base y, al mismo tiempo, mantiene una precisión del 95 al 100 % en todas las tareas. En el punto de referencia RULER, brilla en tareas de recuperación, pero su precisión se degrada apenas entre un 1 y un 3 % en escenarios de razonamiento de múltiples saltos más complejos. El punto de referencia BABILong se centró en probar el razonamiento en contextos más largos y los resultados siempre están dentro del rango del 0 al 3 % en comparación con la línea de base. También es escalable hasta una longitud de secuencia de 1 millón de tokens, lo que lo convierte en un candidato sólido y flexible que se adapta bien a aplicaciones altamente dependientes de la secuencia.

Star Attention establece un marco transformador para la inferencia eficiente en LLM basados ​​en Transformer, abordando limitaciones clave en el procesamiento de secuencias largas. La atención escasa en bloques más los bloques de anclaje logran el equilibrio adecuado entre eficiencia computacional y precisión, lo que permite aceleraciones con una preservación significativa del rendimiento. Este avance aporta soluciones prácticas y escalables para una amplia gama de aplicaciones de IA: razonamiento, recuperación y resumen. El trabajo futuro implicará diseñar mejoras para anclar los mecanismos y mejorar el rendimiento de los cuellos de botella en las tareas que dependen de la comunicación entre bloques.


Verificar el papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo (Promovido)


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.