Los investigadores de NVIDIA presentan el canal de codificación de transformación KVTC para comprimir las cachés de valores clave 20 veces para un servicio LLM eficiente
Servir modelos de lenguajes grandes (LLM) a escala es un desafío de ingeniería enorme debido a la administración de caché de valores clave (KV). A medida que los modelos crecen…