Investigadores del MIT, NVIDIA y la Universidad de Zhejiang proponen TriAttention: un método de compresión de caché KV que iguala la atención total con un rendimiento 2,5 veces mayor
El razonamiento de cadena larga es una de las tareas con mayor uso intensivo de cómputo en los modelos de lenguajes grandes modernos. Cuando un modelo como DeepSeek-R1 o Qwen3…