Conozca EAGLE 3.1: el algoritmo de decodificación especulativa que soluciona la desviación de la atención en la inferencia LLM
La decodificación especulativa es una técnica para acelerar la inferencia de modelos de lenguaje grandes. Un modelo de borrador pequeño y rápido propone varios tokens. El modelo de destino grande…