Google presenta TurboQuant: un nuevo algoritmo de compresión que reduce 6 veces la memoria caché de valores-clave LLM y ofrece una aceleración de hasta 8 veces, todo sin pérdida de precisión
La ampliación de los modelos de lenguaje grande (LLM) está cada vez más limitada por la sobrecarga de comunicación de la memoria entre la memoria de alto ancho de banda…