Los modelos de idiomas grandes (LLM) han avanzado significativamente debido a la arquitectura del transformador, con modelos recientes como Gemini-Pro1.5, Claude-3, GPT4 y LLAMA3.1 que demuestran capacidades para procesar cientos de miles de tokens. Sin embargo, estas longitudes de contexto ampliadas introducen desafíos críticos para la implementación práctica. A medida que aumenta la longitud de la secuencia, la latencia de decodificación se intensifica y las limitaciones de memoria se convierten en cuellos de botella severos. El caché de KV, que almacena información contextual en la memoria de GPU durante la inferencia, crece proporcionalmente con la longitud de contexto, lo que lleva a la saturación de la memoria. Esta limitación fundamental impide procesos de inferencia eficientes al manejar secuencias de entrada extensas, creando una necesidad apremiante de soluciones de optimización.
Si bien existen métodos sin entrenamiento, con frecuencia dependen del acceso a los pesos de atención para determinar la importancia del par de valores clave, creando incompatibilidad con algoritmos de atención eficientes como la flashatención. Estos métodos a menudo requieren una recomputación parcial de matrices de atención, introduciendo el tiempo y la sobrecarga de la memoria. En consecuencia, los algoritmos de compresión existentes sirven principalmente para comprimir las indicaciones antes de la generación de respuestas en lugar de optimizar los procesos de generación limitados por la memoria. Esta limitación fundamental resalta la necesidad de técnicas de compresión que mantengan el rendimiento del modelo sin requerir modificaciones arquitectónicas o compatibilidad con compromiso con algoritmos de eficiencia establecidos.
Este artículo de Sorbonne Université, Inria Francia, Universidad de Roma de Sapienza, Universidad de Edimburgo y Miniml.ai presenta Qiltersuna robusta técnica de compresión de caché KV sin entrenamiento que utiliza el filtrado basado en consultas para optimizar el uso de la memoria sin sacrificar el rendimiento del modelo. Q-Filters opera evaluando la importancia de los pares de valor clave en función de su relevancia para la consulta actual, en lugar de depender de los pesos de atención. Este enfoque garantiza la compatibilidad con algoritmos de atención eficientes como la flashatención al tiempo que elimina la necesidad de reentrenamiento o modificaciones arquitectónicas. Al evaluar y retener dinámicamente solo la información contextual más relevante, Q-Filters logra una reducción significativa de la memoria mientras se mantiene la calidad de la inferencia. El método implementa una tubería de compresión simplificada que se integra perfectamente con las implementaciones de LLM existentes, ofreciendo una solución práctica para entornos limitados por la memoria sin comprometer la capacidad del modelo para procesar las entradas de contexto largo de manera efectiva.
Sobre la base de las ideas teóricas sobre la geometría de clave de consulta, Q-Filters presenta un enfoque sofisticado para la compresión de caché de KV que aprovecha las propiedades geométricas intrínsecas de la consulta y los vectores clave. El método se basa en dos observaciones críticas: la existencia de una dirección normalizada común favorecida tanto para la consulta como para las distribuciones clave, y la naturaleza unidireccional de la anisotropía de clave de consulta. A través de la rigurosa formulación matemática, los investigadores demuestran que proyectar vectores clave a lo largo de esta dirección anisotrópica proporciona una estimación confiable de los logits de atención. Esta idea conduce a un algoritmo de compresión simplificado que involucra: (1) recopilar representaciones de consultas a través del muestreo de modelos, (2) calcular la descomposición del valor singular (SVD) para extraer vectores rectos y (3) obtener filtros Q positivos para cada cabeza de atención. Durante la inferencia, el método descarta estratégicamente pares de valor clave con los valores de proyección más bajos a lo largo de estos filtros. Para los modelos que utilizan atención de Query-Query, los filtros Q simplemente promedian los filtros a través de representaciones de consultas agrupadas. Es importante destacar que este enfoque requiere solo un paso de preparación único después del entrenamiento del modelo, con los filtros Q resultantes restantes del contexto agnóstico mientras explotan las propiedades fundamentales del espacio latente.
Q-Filters demuestra un rendimiento excepcional en múltiples escenarios de evaluación, superando constantemente los métodos existentes de compresión de caché de KV. En las pruebas de modelado de idiomas en el conjunto de datos de pilotes, la técnica logra la perplejidad más baja entre todos los esquemas de compresión, incluso con el tamaño máximo de caché de KV restringido a 512 pares y a través de longitudes de secuencia extendidas. Esta ventaja de rendimiento escala de manera efectiva a modelos más grandes, con LLAMA-3.1-70B que muestra una reducción significativa de la perplejidad, particularmente en las últimas porciones de secuencias donde la retención contextual se vuelve crítica. En la desafiante tarea de aguja en un haystack, Q-Filters mantiene una impresionante precisión del 91% en comparación con el 63% de K-Norm, preservando con éxito información crucial en longitudes de contexto extremas de 1K a 64K tokens. La evaluación integral en el conjunto de datos de la regla valida aún más la superioridad del método, particularmente a altas tasas de compresión (32 ×), donde Q-Filters alcanza los puntajes más altos en largos puntos de referencia de modelado de contexto. Además, la técnica demuestra una notable robustez con respecto a los requisitos de calibración, con rendimientos decrecientes de más de 1,000 muestras y alta estabilidad de vectores en diversos conjuntos de datos de calibración, confirmando su eficiencia práctica para las implementaciones del mundo real.
Q-Filters demuestra un rendimiento excepcional en múltiples escenarios de evaluación, superando constantemente los métodos existentes de compresión de caché de KV. En las pruebas de modelado de idiomas en el conjunto de datos de pilotes, la técnica logra la perplejidad más baja entre todos los esquemas de compresión, incluso con el tamaño máximo de caché de KV restringido a 512 pares y a través de longitudes de secuencia extendidas. Esta ventaja de rendimiento escala de manera efectiva a modelos más grandes, con LLAMA-3.1-70B que muestra una reducción significativa de la perplejidad, particularmente en las últimas porciones de secuencias donde la retención contextual se vuelve crítica. En la desafiante tarea de aguja en un haystack, Q-Filters mantiene una impresionante precisión del 91% en comparación con el 63% de K-Norm, preservando con éxito información crucial en longitudes de contexto extremas de 1K a 64K tokens. La evaluación integral en el conjunto de datos de la regla valida aún más la superioridad del método, particularmente a altas tasas de compresión (32 ×), donde Q-Filters alcanza los puntajes más altos en largos puntos de referencia de modelado de contexto. Además, la técnica demuestra una notable robustez con respecto a los requisitos de calibración, con rendimientos decrecientes de más de 1,000 muestras y alta estabilidad de vectores en diversos conjuntos de datos de calibración, confirmando su eficiencia práctica para las implementaciones del mundo real.
Q-Filters presenta un método de compresión de caché KV sin capacitación que proyecta representaciones clave en el componente SVD principal de consulta de los vectores de consulta, que se aproxima a los puntajes de atención con precisión. Compatible con la flashatención sin acceder a pesos de atención, este enfoque eficiente muestra un rendimiento superior en el modelado de lenguaje, las pruebas de aguja en un jerga y puntos de referencia de regla para modelos de hasta 70b de parámetros. Q-Filters ofrece una solución efectiva para las implementaciones de LLM limitadas por la memoria sin comprometer las capacidades de comprensión contextual.
Verificar el Papel y Qilters en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.