Los investigadores de NVIDIA presentan el canal de codificación de transformación KVTC para comprimir las cachés de valores clave 20 veces para un servicio LLM eficiente

Servir modelos de lenguajes grandes (LLM) a escala es un desafío de ingeniería enorme debido a la administración de caché de valores clave (KV). A medida que los modelos crecen en tamaño y capacidad de razonamiento, la huella de la caché KV aumenta y se convierte en un importante cuello de botella para el rendimiento y la latencia. Para los Transformers modernos, este caché puede ocupar varios gigabytes.

Los investigadores de NVIDIA han introducido KVTC (KV Cache Transform Coding). Este codificador de transformación liviano comprime cachés KV para un almacenamiento compacto dentro y fuera de la GPU. Logra una compresión de hasta 20 veces mientras mantiene el razonamiento y la precisión del contexto prolongado. Para casos de uso específicos, puede alcanzar 40x o más.

https://arxiv.org/pdf/2511.01815

El dilema de la memoria en la inferencia LLM

En producción, los marcos de inferencia tratan las cachés KV locales como bases de datos. Estrategias como compartir prefijos promueven la reutilización de cachés para acelerar las respuestas. Sin embargo, las cachés obsoletas consumen la escasa memoria de la GPU. Actualmente, los desarrolladores se enfrentan a una decisión difícil:

Conservar el caché: Ocupa memoria necesaria para otros usuarios. Descartar el caché: Incurre en un alto costo de recálculo. Descargar el caché: mueve datos a la CPU DRAM o SSD, lo que genera gastos generales de transferencia.

KVTC mitiga en gran medida este dilema al reducir el costo de retención en el chip y reducir el ancho de banda requerido para la descarga.

¿Cómo funciona el oleoducto KVTC?

El método está inspirado en la compresión de medios clásica. Aplica una transformación ortonormal aprendida, seguida de cuantificación adaptativa y codificación de entropía.

1. Descorrelación de características (PCA)

Diferentes cabezas de atención suelen mostrar patrones similares y un alto grado de correlación. KVTC utiliza el Análisis de Componentes Principales (PCA) para descorrelacionar linealmente características. A diferencia de otros métodos que calculan una descomposición separada para cada mensaje, KVTC calcula la matriz V de base PCA una vez en un conjunto de datos de calibración. Luego, esta matriz se reutiliza para todos los cachés futuros en el momento de la inferencia.

2. Cuantización adaptativa

El sistema explota el orden PCA para asignar un presupuesto de bits fijo entre coordenadas. Los componentes de alta variación reciben más bits, mientras que otros reciben menos. KVTC utiliza un algoritmo de programación dinámica (DP) para encontrar la asignación de bits óptima que minimice el error de reconstrucción. Fundamentalmente, el DP a menudo asigna 0 bits a los componentes principales finales, lo que permite una reducción temprana de la dimensionalidad y un rendimiento más rápido.

3. Codificación de entropía

Los símbolos cuantificados se empaquetan y comprimen utilizando el algoritmo DEFLATE. Para mantener la velocidad, KVTC aprovecha la biblioteca nvCOMP, que permite la compresión y descompresión paralela directamente en la GPU.

Protección de tokens críticos

No todos los tokens se comprimen por igual. KVTC evita comprimir dos tipos específicos de tokens porque contribuyen desproporcionadamente a la precisión de la atención:

Sumideros de atención: las 4 fichas más antiguas de la secuencia. Ventana deslizante: los 128 tokens más recientes.

Los estudios de ablación muestran que comprimir estos tokens específicos puede reducir significativamente o incluso colapsar la precisión en relaciones de compresión altas.

Puntos de referencia y eficiencia

El equipo de investigación probó KVTC con modelos como Llama-3.1, Mistral-NeMo y R1-Qwen-2.5.

Precisión: con una compresión de 16x (aproximadamente 20x después de DESINFLAR), el modelo mantiene consistentemente los resultados dentro de 1 punto de los modelos básicos. Reducción de TTFT: para una longitud de contexto de 8K, kvtc puede reducir el tiempo hasta el primer token (TTFT) hasta 8 veces en comparación con el recálculo completo. Velocidad: la calibración es rápida; para un modelo 12B, se puede completar en 10 minutos en una GPU NVIDIA H100. Gastos generales de almacenamiento: los datos adicionales almacenados por modelo son pequeños y representan solo el 2,4 % de los parámetros del modelo para Llama-3.3-70B.

KVTC es un componente práctico para el servicio LLM con uso eficiente de la memoria. No modifica los pesos del modelo y es directamente compatible con otros métodos de desalojo de tokens.

Conclusiones clave

Alta compresión con baja pérdida de precisión: KVTC logra una relación de compresión estándar de 20x mientras mantiene los resultados dentro de 1 punto de los modelos básicos (sin comprimir) en la mayoría de los puntos de referencia de razonamiento y contexto largo. Canalización de codificación de transformación: el método utiliza una canalización inspirada en la compresión de medios clásica, que combina descorrelación de características basada en PCA, cuantificación adaptativa mediante programación dinámica y codificación de entropía sin pérdidas (DEFLATE). Protección de tokens críticos: para mantener el rendimiento del modelo, KVTC evita comprimir los 4 tokens de “receptor de atención” más antiguos y una “ventana deslizante” de los 128 tokens más recientes. Eficiencia operativa: el sistema no requiere ajustes y solo requiere una breve calibración inicial (menos de 10 minutos para un modelo 12B) que deja los parámetros del modelo sin cambios y agrega una sobrecarga de almacenamiento mínima: solo 2,4 % para un modelo 70B. Reducción significativa de la latencia: al reducir el volumen de datos almacenados y transferidos, KVTC puede reducir el tiempo hasta el primer token (TTFT) hasta 8 veces en comparación con el recálculo completo de las cachés KV para contextos prolongados.

Consulte el documento aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Los investigadores de NVIDIA presentan el canal de codificación de transformación KVTC para comprimir las cachés de valores clave 20 veces para un servicio LLM eficiente

ByEquipo de 7 minutos

El dilema de la memoria en la inferencia LLM

¿Cómo funciona el oleoducto KVTC?

1. Descorrelación de características (PCA)

2. Cuantización adaptativa

3. Codificación de entropía

Protección de tokens críticos

Puntos de referencia y eficiencia

Conclusiones clave

By Equipo de 7 minutos

Related Post

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

Cómo seleccionar variables de forma sólida en un modelo de puntuación

You missed

Se revelan las tarifas de estacionamiento en aeropuertos más caras de Europa « Euro Weekly News

Demi Lovato y Jutes interpretan la canción de Goo Goo Dolls, primera pista de baile

La preeclampsia existe desde hace aproximadamente 5.000 años, pero aún no existe cura: ¿por qué se la llama la “enfermedad de las teorías”?

No hay nada divertido en el espectáculo de payasos de Trump