Qwen Team lanza FlashQLA: una biblioteca de kernel de atención lineal de alto rendimiento que logra una aceleración de hasta 3 veces en las GPU NVIDIA Hopper
La carrera para hacer que los modelos de lenguaje grandes sean más rápidos y más baratos de ejecutar se ha librado en gran medida en dos niveles: la arquitectura del…