Investigadores de China presentan INT-FlashAttention: arquitectura de cuantificación INT8 compatible con FlashAttention que mejora la velocidad de inferencia de FlashAttention en GPU Ampere
Los modelos de lenguaje grande (LLM) evalúan e interpretan vínculos entre palabras o tokens en una secuencia principalmente a través del mecanismo de autoatención. Sin embargo, la complejidad del tiempo…