Los modelos de lenguaje grande (LLM) se han vuelto fundamentales para el procesamiento del lenguaje natural (NLP), sobresaliendo en tareas como la generación, comprensión y razonamiento de texto. Sin embargo, su capacidad para manejar secuencias de entrada más largas está limitada por importantes desafíos computacionales, en particular la sobrecarga de memoria durante la inferencia causada por cachés de valores clave (KV). Dado que los requisitos de memoria escalan linealmente con la longitud de la secuencia, esto limita la ventana de contexto máxima que los modelos pueden procesar de manera efectiva. Las soluciones existentes, como los mecanismos de atención escasa y el almacenamiento fuera del chip, intentan mitigar este problema, pero a menudo introducen compensaciones, como una mayor latencia o el riesgo de perder información importante. Abordar el consumo de memoria sin comprometer el rendimiento del modelo sigue siendo un desafío crítico en la ampliación de los LLM para aplicaciones prácticas.

Un equipo de investigadores de la Universidad Tsinghua, el Instituto Qi Zhi de Shanghai, UCLA y TapTap han presentado Atención de producto tensorial (TPA)un mecanismo de atención diseñado para aliviar el cuello de botella de la caché de KV. TPA aprovecha las descomposiciones tensoriales para representar consultas, claves y valores (QKV) de forma compacta, lo que reduce significativamente el tamaño de la caché KV durante la inferencia. Al emplear la factorización contextual de bajo rango, TPA logra ahorros sustanciales de memoria al tiempo que mantiene o mejora el rendimiento del modelo. Además, se integra perfectamente con Rotary Position Embedding (RoPE), lo que permite la compatibilidad con arquitecturas basadas en la atención ampliamente utilizadas como LLaMA. Este enfoque permite que TPA sirva como reemplazo directo de la atención de múltiples cabezas (MHA), formando la base de la Transformador de atención del producto tensorial (T6)una arquitectura de modelado de secuencias que muestra notables mejoras de rendimiento en tareas de modelado de lenguaje.

Detalles técnicos y beneficios

TPA introduce un enfoque novedoso para factorizar dinámicamente las activaciones de QKV en componentes de bajo rango. A diferencia de las técnicas de factorización de peso estáticas como LoRA, TPA genera representaciones contextuales adaptadas a los datos de entrada. Los componentes Q, K y V de cada token se expresan como una suma de productos tensoriales de factores latentes, que se derivan a través de proyecciones lineales del estado oculto del token. Esta estructura tensorial facilita una representación eficiente y reduce el uso de memoria.

Una ventaja clave de TPA es su integración con RoPE. Los métodos tradicionales de bajo rango enfrentan desafíos con RoPE debido a su dependencia de la invariancia posicional relativa. TPA resuelve esto mediante la rotación previa de componentes tensoriales, lo que permite un almacenamiento en caché e inferencia eficientes al tiempo que preserva la información posicional.

La eficiencia de la memoria de TPA es significativa. El MHA estándar se basa en un caché KV de tamaño completo proporcional al número de cabezales y sus dimensiones, mientras que TPA reduce este requisito al almacenar en caché solo los componentes factorizados. Esta reducción permite el procesamiento de secuencias mucho más largas dentro de las mismas limitaciones de memoria, lo que la hace particularmente efectiva para aplicaciones que requieren ventanas de contexto extendidas.

Resultados y conocimientos

Los investigadores evaluaron TPA en el conjunto de datos FineWeb-Edu100B en varias tareas de modelado de lenguaje. Tensor Product Attention Transformer (T6) superó consistentemente las líneas de base, incluidas MHA, atención de consultas múltiples (MQA), atención de consultas agrupadas (GQA) y atención latente de cabezas múltiples (MLA).

En términos de pérdida de capacitación y validación, TPA demostró una convergencia más rápida y menores pérdidas finales en comparación con sus contrapartes. Por ejemplo, en experimentos con modelos a gran escala (parámetros 773M), TPA logró pérdidas de validación significativamente menores que MLA y GQA. Además, TPA mostró resultados de perplejidad superiores en múltiples configuraciones, destacando su eficiencia y precisión.

Más allá de las métricas de preentrenamiento, TPA tuvo un desempeño excepcionalmente bueno en tareas posteriores como ARC, BoolQ, HellaSwag y MMLU. En las indicaciones de disparo cero y dos disparos, TPA se ubicó constantemente entre los métodos de mejor rendimiento, logrando precisiones promedio de 51,41% y 53,12%, respectivamente, para modelos de tamaño mediano. Estos hallazgos enfatizan la capacidad de TPA para generalizar eficazmente en diversas tareas lingüísticas.

Conclusión

Tensor Product Attention (TPA) aborda los desafíos de escalabilidad de grandes modelos de lenguaje mediante la introducción de un mecanismo de factorización dinámico de bajo rango que reduce la huella de memoria de las cachés KV y al mismo tiempo mantiene un rendimiento sólido. Su compatibilidad con arquitecturas existentes y resultados sólidos en varios puntos de referencia lo convierten en una alternativa práctica a los mecanismos de atención tradicionales. A medida que crece la necesidad de un procesamiento de contexto más prolongado en los modelos de lenguaje, métodos como TPA proporcionan un camino eficiente a seguir, combinando la eficiencia de la memoria con un rendimiento sólido para aplicaciones del mundo real.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

Por automata