MInference (Milliontokens Inference): un método eficiente sin entrenamiento para la etapa de prellenado de LLM de contexto largo basado en atención dispersa dinámica
Las demandas computacionales de los LLM, particularmente con indicaciones largas, dificultan su uso práctico debido a la complejidad cuadrática del mecanismo de atención. Por ejemplo, procesar una indicación de un…