Aceleración de la inferencia LLM: introducción de SampleAttention para un procesamiento eficiente de contextos largos
Los modelos de lenguaje grande (LLM) ahora admiten ventanas de contexto muy largas, pero la complejidad cuadrática de la atención estándar da como resultado una latencia de tiempo hasta el…