Investigadores de Snowflake y CMU presentan SuffixDecoding: un nuevo enfoque sin modelos para acelerar la inferencia de modelos de lenguaje grande (LLM) mediante decodificación especulativa
Los modelos de lenguajes grandes (LLM) se han convertido rápidamente en un componente fundamental de las aplicaciones empresariales y de consumo actuales. Sin embargo, la necesidad de una generación rápida…