Los investigadores de NVIDIA introducen la dispersión de memoria dinámica (DMS) para la compresión de caché de 8 × kV en Transformer LLMS
A medida que crece la demanda de tareas de razonamiento, se espera cada vez más que los modelos de lenguaje grande (LLM) generen secuencias más largas o cadenas paralelas de…