FLUTE: un núcleo CUDA diseñado para multiplicaciones de matrices cuantificadas fusionadas para acelerar la inferencia LLM
Los modelos de lenguaje grande (LLM) enfrentan desafíos de implementación debido a problemas de latencia causados por restricciones de ancho de banda de memoria. Los investigadores utilizan la cuantificación de…