La carrera de compresión de caché KV: TurboQuant vs OSCAR vs EpiCache

Los modelos de lenguaje grande (LLM) de contexto largo se enfrentan a un cuello de botella en la memoria que no tiene nada que ver con los pesos del modelo. Durante la decodificación, los transformadores almacenan en caché los vectores de clave y valor (KV) para cada token en cada capa para no tener que volver a calcular la atención. Este caché crece linealmente con la longitud de la secuencia y el tamaño del lote, y en un contexto largo con alta concurrencia puede eclipsar la huella del propio modelo.

Considere Llama-3.1-70B en BF16. Su caché KV cuesta alrededor de 0,31 MB por token (80 capas × 8 cabezales KV × 128 cabezales atenuados × 2 tensores × 2 bytes). Con 128.000 tokens, eso equivale a ~40 GB; con 1 millón de tokens supera los 300 GB, más que los 140 GB de peso en sí. Peor aún, cada token recién decodificado tiene que transmitir todo el caché desde la memoria de alto ancho de banda (HBM), lo que hace que la decodificación esté vinculada al ancho de banda de la memoria en lugar de a la computación. Por lo tanto, reducir la caché KV es la palanca más directa para reducir tanto el costo como la latencia de decodificación.

Los enfoques actuales se dividen aproximadamente en cinco familias: desalojo de tokens (H2O, SnapKV), cuantificación (KIVI, GEAR), proyección de bajo rango (Palu), fusión (KVMerger) y uso compartido de arquitectura (MLA). El trabajo reciente de 2026 ha impulsado con fuerza la frontera de la cuantificación de bits ultrabajos. TurboQuant (ICLR 2026) de Google y NYU y OSCAR de Together AI atacan el mismo problema desde direcciones opuestas, mientras que EpiCache de Apple aborda un problema que ninguno de los dos aborda.

La mayoría de los cuantificadores KV luchan contra el mismo enemigo subyacente: los canales atípicos: un puñado de canales con magnitudes desproporcionadamente grandes que dominan el rango de cuantificación y comprimen el resto de la señal en solo unos pocos niveles representables. Esta es la razón por la cual la ingenua cuantificación INT2 (sólo cuatro niveles) colapsa hasta alcanzar una precisión cercana a cero.

KIVI estableció aquí la base estándar. Demostró que los vectores clave tienen canales atípicos fijos entre los tokens, mientras que los vectores de valor no, por lo que cuantifica las claves por canal y los valores por token. Esa receta de 2 bits sin ajustes reduce la memoria máxima de un extremo a otro (pesos incluidos) aproximadamente 2,6 veces, y es el punto de referencia sobre el que se basan los métodos más nuevos.

TurboQuant: ajeno a los datos y teóricamente óptimo

TurboQuant maneja valores atípicos sin siquiera mirar sus datos, en dos etapas:

Etapa uno: cada vector se gira aleatoriamente para que sus coordenadas se vuelvan casi independientes y aproximadamente gaussianas, lo que permite aplicar un cuantificador escalar precalculado óptimo (Lloyd-Max) por coordenada. Etapa dos: se aplica una transformada cuantificada de Johnson-Lindenstrauss (QJL) de 1 bit al residuo, lo que proporciona una estimación demostrablemente insesgada de los logits de atención sin una sobrecarga constante de normalización.

El punto de venta es teórico: la distorsión de TurboQuant está demostrablemente dentro de un pequeño factor constante (≈ 2,7×) del límite inferior de la teoría de la información. En la práctica, alcanza esencialmente una recuperación de precisión total en Needle-in-a-Haystack con una compresión de 4x, y el artículo informa una neutralidad de calidad absoluta a 3,5 bits y solo una degradación marginal a 2,5 bits por canal. Debido a que no necesita calibración, funciona intacto en cualquier modelo y también funciona como un rápido cuantificador de base de datos vectorial.

Una advertencia que vale la pena señalar: la cifra ampliamente repetida de “atención 8 veces más rápida en H100” proviene del blog de Google, no del documento, y se refiere a un microbenchmark logit de atención estrecho. El punto óptimo documentado de TurboQuant es el régimen casi sin pérdidas de 3 a 4 bits.

OSCAR: atento a la atención y listo para el despliegue

OSCAR apuesta al revés. Su premisa es que en los cuatro niveles de INT2, una rotación sin tener en cuenta los datos es la herramienta equivocada: suavizar ciegamente los rangos no es suficiente cuando casi no hay precisión de sobra. Entonces, OSCAR calcula una rotación consciente de la atención a partir de un pase único de calibración fuera de línea: las claves se rotan en la base propia de la covarianza de la consulta, los valores en la covarianza del valor ponderado por puntuación. Una transformada de Hadamard más una permutación de inversión de bits distribuye la importancia del canal de manera uniforme entre los grupos de cuantificación.

Lo que distingue a OSCAR es que se presenta como un sistema completo, no sólo como un algoritmo:

Caché paginado de precisión mixta: los tokens receptores y recientes permanecen en BF16 mientras el historial se comprime a INT2; en un contexto de 128 KB, solo ~0,24 % de los tokens permanecen en BF16. Kernels Triton fusionados con integración SGLang completa (compatible con atención paginada y caché de prefijo). Rotaciones precalculadas (un “RotationZoo”) para Qwen3-4B/8B/32B, GLM-4.7-FP8 y MiniMax-M2.7: no se necesita recalibración.

Con 2,28 bits efectivos, OSCAR aterriza a 1,42 puntos de BF16 en Qwen3-8B y está esencialmente a la par en Qwen3-32B (una brecha de 0,02 puntos). En GLM-4.7-FP8, donde el ingenuo INT2 colapsa a cero y las líneas de base ajenas a los datos alcanzan solo un dígito bajo, OSCAR iguala a BF16 e incluso se adelanta ligeramente en los puntos de referencia informados (dentro del ruido). En conjunto, la IA reporta un rendimiento a nivel de trabajo de hasta 7,83 veces y una reducción de memoria caché KV de aproximadamente 8 veces en un contexto de 100K, con una decodificación hasta ~3 veces más rápida.

Entonces ¿cuál gana?

Ninguno de los dos, y esa es la respuesta honesta. Para INT2 desplegable con tokens de 128K en modelos compatibles, OSCAR es actualmente la única opción demostrada que no colapsa y viene con soporte SGLang listo para producción. Para una cuantificación independiente del modelo y sin entrenamiento en el régimen de 3 a 4 bits, TurboQuant ofrece una generalidad mucho más amplia.

El documento de OSCAR informa que TurboQuant cae más de 40 puntos con un presupuesto comparable, pero esa evaluación se realiza dentro del propio marco de OSCAR, cuantifica todas las capas, utiliza una única semilla aleatoria y opera muy por debajo del ancho de bits previsto de TurboQuant, por lo que es una base débil para un veredicto cara a cara. La posibilidad más interesante es que los dos sean complementarios: emparejar una rotación consciente de la calibración con un cuantificador escalar óptimo es una combinación prometedora que nadie ha lanzado todavía. (Ambos equipos han notado públicamente la misma idea).

El tercer eje: EpiCache

TurboQuant y OSCAR están diseñados para un único contexto prolongado. Ninguno de los dos maneja conversaciones extendidas de varios turnos, donde la historia se acumula en muchos intercambios. EpiCache de Apple es un marco de gestión de caché KV sin formación dirigido exactamente a esa brecha:

El prellenado por bloques procesa el historial en bloques para mantener limitada la memoria máxima. La agrupación episódica segmenta la conversación en “episodios” semánticos coherentes, cada uno con su propio caché comprimido. La recuperación coincidente con episodios dirige cada consulta al episodio más relevante en el momento de la inferencia. La asignación de presupuesto adaptable por capas mide la sensibilidad de cada capa al desalojo y distribuye el presupuesto de memoria en consecuencia.

En LongMemEval, RealTalk y LoCoMo, EpiCache informa una precisión hasta un 40 % mayor que las líneas base de desalojo, una precisión de caché casi completa con una compresión de 4 a 6 veces y una memoria máxima hasta 3,5 veces menor (y una latencia ~2,4 veces menor). Debido a que decide qué tokens conservar en lugar de cómo almacenarlos con precisión, compone directamente con OSCAR o TurboQuant para aumentar los ahorros.

Conclusiones clave

TurboQuant supera la frontera teórica independiente del modelo: la opción ideal para una compresión de 3 a 4 bits casi sin pérdidas en cualquier modelo. OSCAR lidera en INT2 desplegable, con un rendimiento de hasta 7,83 veces y una reducción de memoria de ~8 veces en un contexto de 100 000 en los modelos compatibles. EpiCache resuelve la memoria conversacional a lo largo de los turnos (hasta un 40 % de ganancia de precisión con respecto al desalojo y una memoria máxima 3,5 veces menor) y compone con cualquiera de los cuantificadores. Elija por restricción: presupuesto de ancho de bits, portabilidad del modelo o duración de la conversación, luego combine los métodos ortogonales que se ajusten. Estos enfoques son más complementarios que competitivos.

Fuentes

Arnav Rai

" data-large-file="https://www.marktechpost.com/wp-content/uploads/2026/06/Screenshot-2026-06-18-at-1.36.14-AM-934x1024.png"/>

Arnav actualmente es estudiante en el Instituto de Tecnología de Rochester y está cursando una licenciatura en Ciencias de la Computación y una especialización en Economía con experiencia práctica en desarrollo de backend, y es colaborador de Marktechpost, donde escribe sobre la investigación de IA/ML.