Cómo un algoritmo de cuantificación de 2021 supera silenciosamente a su sucesor de 2026

[3]un método de cuantificación vectorial en línea, atrajo la atención del público en ICLR 2026. Para mí, me pareció muy familiar: se superpone en gran medida con EDEN, un método de cuantificación presentado por primera vez como el método de 1 bit DRIVE en NeurIPS 2021. [1] y generalizado a anchos de bits arbitrarios en ICML 2022 [2]. En coautoría mía, con Ran Ben-Basat, Yaniv Ben-Itzhak, Gal Mendelson, Michael Mitzenmacher y Shay Vargaftik.

El documento TurboQuant presenta dos variantes: TurboQuant-mse y TurboQuant-prod. En una nueva comparación detallada [5] Mostramos que TurboQuant-mse es un caso degenerado de EDEN, y que las variantes de EDEN superan consistentemente a sus contrapartes.

Cómo EDEN cuantifica un vector

Supongamos que necesita comprimir un vector dd-dimensional xx (una actualización de gradiente, una incrustación, una entrada de caché KV) a unos pocos bits por coordenada. EDEN procede en cuatro pasos:

Rotación aleatoria: multiplicar por una matriz ortogonal aleatoria Π\Pi. Después de la rotación, las coordenadas se distribuyen de manera idéntica y, para dd grandes, aproximadamente gaussianas. Cuantización escalar: redondea cada coordenada rotada a uno de los niveles 2b2^b de un libro de códigos de Lloyd-Max entrenado en la distribución de coordenadas rotadas conocida (bb es el número objetivo de bits por coordenada). Escala: multiplicar por un factor de escala SS. Rotación inversa: aplique Π⊤\Pi^\top para recuperar una aproximación x^\hat{x} del vector original.

Mientras que trabajos anteriores (p. ej., Suresh et al. (2017) [6]) utilizó la rotación principalmente para reducir el rango dinámico de las coordenadas (la brecha entre el valor de coordenadas más grande y más pequeño), EDEN [1] fue, hasta donde sabemos, el primer esquema de cuantificación que explotó un hecho más sólido sobre la rotación aleatoria: las coordenadas posteriores a la rotación siguen una distribución conocida, lo que nos permite usar un cuantificador determinista combinado con una escala de forma cerrada que, dependiendo de la aplicación, minimiza el MSE o hace que la estimación sea imparcial. Ambas escalas se derivan analíticamente y la construcción produce una reducción asintótica del MSE con respecto al enfoque anterior.

Concretamente, las dos variantes de EDEN sólo se diferencian en la elección del SS:

Sesgado a EDEN: establece SS en el valor de forma cerrada que minimiza el MSE de reconstrucción. EDEN-imparcial: elige SS para que la salida descomprimida sea correcta en promedio (𝔼[x^]=x\mathbb{E}[\hat{x}] = x), lo cual es particularmente importante cuando se promedian muchos vectores cuantificados (por ejemplo, entrenamiento distribuido, atención).

Alineado con EDEN, TurboQuant-mse coincide en todos los pasos excepto en uno: donde EDEN deriva analíticamente la escala SS, TurboQuant-mse, aunque apunta a la minimización de MSE, omite el escalado optimizado.

El pseudocódigo siguiente muestra los tres uno al lado del otro.

Figura 1: Pseudocódigo de EDEN instanciado para EDEN sesgado, EDEN imparcial y TurboQuant-mse. Los tres son idénticos excepto en el paso 5: la elección de S. Imagen del autor [5].

Por qué vale la pena la escala óptima

El valor de aplicar la escala SS adecuada crece con el ancho de bits. En b=1b = 1 bit, la brecha es marginal. En d=128d = 128 y b=4b = 4 bits, el sesgo EDEN reduce el MSE en un 2,25% respecto a TurboQuant-mse, y estos son los anchos de bits que los profesionales realmente usan para incrustaciones y cachés KV.

En las dimensiones de 16 a 4096 y en todos los anchos de bits probados b∈{1,2,3,4}b \in \{1,2,3,4\}, vNMSE con sesgo EDEN (MSE normalizado por vector, 𝔼[‖x−x^‖2]/‖x‖2\mathbb{E}[\|x – \hat{x}\|^2] / \|x\|^2) cae por debajo del de TurboQuant-mse en todos los casos (Figura 2). A medida que la dimensión crece mucho, el SS óptimo se acerca a 1 y los dos algoritmos convergen, pero en las dimensiones prácticas (128-1024), la brecha persiste.

Figura 2: vNMSE versus dimensión que compara el sesgo EDEN y TurboQuant-mse en anchos de bits b∈{1,2,3,4}b \in \{1,2,3,4\} (paneles de izquierda a derecha). El sesgo EDEN (que optimiza el factor de escala SS) logra un error menor que TurboQuant-mse (que corrige S=1S=1) en cada dimensión probada. Las curvas convergen en una dimensión alta a medida que el SS óptimo se acerca a 1. Imagen del autor [5].

Compresión imparcial: ahorra más de un bit completo

Los resultados anteriores se refieren a las variantes sesgadas (que minimizan la MSE). Ahora considere el caso imparcial, donde aplicaciones como capacitación distribuida, atención aproximada o recuperación interna del producto necesitan 𝔼[x^]=x\mathbb{E}[\hat{x}] = x porque promedian muchos vectores cuantificados.

EDEN imparcial utiliza el mismo algoritmo de paso único que EDEN sesgado, solo que se elige SS para la corrección del sesgo. La variante imparcial de TurboQuant, TurboQuant-prod, toma una ruta diferente: gasta (b−1)(b-1) bits en el paso TurboQuant-mse sesgado y reserva 1 bit para un QJL (Quantized Johnson-Lindenstrauss) [4] corrección en el residual (QJL es similar a EDEN en b=1b=1, pero con mayor varianza).

EDEN-unbiased supera a TurboQuant-prod en todas las configuraciones probadas y por un margen sustancial. La brecha se debe a tres ventajas estructurales del diseño de paso único de EDEN:

EDEN optimiza la escala. TurboQuant-prod hereda la primera etapa s=1s=1 de TurboQuant-mse, por lo que conlleva la misma penalización de MSE. La construcción de 1 bit de EDEN tiene una variación menor que la de QJL. En dimensiones grandes, el vNMSE de 1 bit de EDEN converge a π/2−1≈0.57\pi/2 – 1 \approx 0.57 [1]mientras que QJL converge a π/2≈1.57\pi/2 \approx 1.57 [4]aproximadamente 2,75 veces más alto. EDEN gasta todo el presupuesto de bits en un único cuantificador imparcial. TurboQuant-prod divide el presupuesto en (b−1)(b-1) bits sesgados más 1 bit residual, lo que empíricamente tiene un rendimiento inferior al gastar todos los bb bits en un único cuantificador imparcial. [5].

Estos efectos se agravan. El resultado: los EDEN imparciales de 1 bit, 2 bits y 3 bits son más precisos que los TurboQuant-prod de 2 bits, 3 bits y 4 bits, respectivamente (Figura 3). Al intercambiar en EDEN, puede reducir un bit por coordenada y aún así igualar la precisión de TurboQuant-prod.

Figura 3: vNMSE versus dimensión comparando EDEN-imparcial y TurboQuant-prod en anchos de bits b∈{1,2,3,4}b \in \{1,2,3,4\}(paneles de izquierda a derecha). EDEN-imparcial logra un menor error en todas las dimensiones. La brecha es lo suficientemente grande como para que EDEN con bits bb a menudo supere a TurboQuant-prod con bits b+1b + 1. Imagen del autor [5].

En los propios puntos de referencia de TurboQuant

La misma imagen se aplica a los puntos de referencia estándar de ANN que evalúa TurboQuant, los vectores de palabras previamente entrenados GloVe de Stanford (Open Data Commons Public Domain Dedication and License v1.0) y las incrustaciones dbpedia-entities-openai3-text-embedding-3-large de Qdrant (Apache 2.0), utilizando el código de evaluación publicado de TurboQuant:

El sesgo de EDEN logra un MSE más bajo que TurboQuant-mse, el imparcial de EDEN logra un error interno del producto notablemente menor que TurboQuant-prod, y la recuperación del vecino más cercano en ambos conjuntos de datos favorece a EDEN (Figura 4).

Figura 4: Recuperación del vecino más cercano en incrustaciones de GloVe y OpenAI3 a 2 y 4 bits por coordenada. EDEN-imparcial supera a TurboQuant-prod en las cuatro configuraciones. Imagen del autor [5].

Para llevar: use EDEN; el escalado óptimo importa

La escala de EDEN conecta la distribución posterior a la rotación conocida con un cuantificador analíticamente óptimo. TurboQuant-mse mantiene la rotación de EDEN y el libro de códigos pero fija S=1S=1, que es lo que lo convierte en un caso especial estrictamente más débil. TurboQuant-prod agrega una etapa QJL de 1 bit además de eso, donde EDEN-unbiased obtiene la misma propiedad, con mayor precisión, simplemente eligiendo una escala de corrección de sesgo.

Para la compresión dirigida a MSE (cuantización del peso del modelo, búsqueda del vecino más cercano, caché KV): el sesgo de EDEN calcula la escala SS óptima y supera consistentemente a TurboQuant-mse (que es EDEN con S=1S=1 fijo). Para una estimación imparcial (estimación de media distribuida, atención aproximada, recuperación del producto interno): EDEN-insesgado supera sustancialmente la estrategia de división de bits de TurboQuant-prod, por márgenes que valen más de un bit completo por coordenada.

EDEN se desarrolló originalmente para la estimación de medias distribuidas en entrenamiento federado y distribuido. Trabajos posteriores lo han aplicado, por ejemplo, para incrustar la compresión para la reclasificación de documentos (SDR, 2022). [8]), lo adaptó para la formación NVFP4 LLM (MS-EDEN en Quartet II, 2026 [10]), lo generalizó a la cuantificación vectorial para la compresión de peso LLM sin datos (HIGGS, 2025 [9]), que luego se utilizó para la compresión de caché KV (AQUA-KV, 2025 [11]).

Las implementaciones de EDEN están disponibles: en PyTorch y TensorFlow, en OpenFL de Intel [7]y su variante de 1 bit en FedJax, TensorFlow Federated y TensorFlow Model Optimization de Google.

Para obtener el análisis técnico completo de comparación con TurboQuant (todas las cifras, metodología experimental detallada), consulte nuestra nota. [5].

Para las derivaciones originales, pruebas y extensiones adicionales, consulte nuestros artículos originales. [1] [2].

Referencias

S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, DRIVE: Estimación de la media distribuida de un bit (2021), NeurIPS 2021. S. Vargaftik, R. Ben-Basat, A. Portnoy, G. Mendelson, Y. Ben-Itzhak, M. Mitzenmacher, EDEN: Estimación media distribuida robusta y eficiente en comunicación para el aprendizaje federado (2022), ICML 2022. A. Zandieh, M. Daliri, A. Hadian, V. Mirrokni, TurboQuant: Cuantización vectorial en línea con tasa de distorsión casi óptima (2026), ICLR 2026. A. Zandieh, M. Daliri, I. Han, QJL: 1-Bit Quantized Transformación JL para cuantificación de caché KV con sobrecarga cero (2024), arXiv:2406.03482. R. Ben-Basat, Y. Ben-Itzhak, G. Mendelson, M. Mitzenmacher, A. Portnoy, S. Vargaftik, Una nota sobre TurboQuant y la línea de trabajo anterior DRIVE/EDEN (2026), arXiv:2604.18555. AT Suresh, FX Yu, S. Kumar, HB McMahan, Estimación media distribuida con comunicación limitada (2017), ICML 2017. Blog de código abierto de VMware, EDEN de VMware Research Group se convierte en parte de OpenFL (noviembre de 2022). N. Cohen, A. Portnoy, B. Fetahu, A. Ingber, SDR: Reclasificación neuronal eficiente mediante representación de documentos sucintos (2022), ACL 2022. V. Malinovskii, A. Panferov, I. Ilin, H. Guo, P. Richtárik, D. Alistarh, HIGGS: Superando los límites de la cuantificación de modelos de lenguaje grande mediante el teorema de linealidad (2025), NAACL 2025. A. Panferov, E. Schultheis, S. Tabesh, D. Alistarh, Quartet II: Pre-entrenamiento preciso de LLM en NVFP4 mediante una estimación de gradiente imparcial mejorada (2026), arXiv:2601.22813. A. Shutova, V. Malinovskii, V. Egiazarian, D. Kuznedelev, D. Mazur, N. Surkov, I. Ermakov, D. Alistarh, Cache Me If You Must: Cuantización adaptativa de valores clave para modelos de lenguaje grandes (2025), ICML 2025.