Investigadores de NVIDIA, CMU y la Universidad de Washington lanzaron ‘FlashInfer’: una biblioteca de kernel que proporciona implementaciones de kernel de última generación para inferencia y servicio de LLM
Los modelos de lenguaje grandes (LLM) se han convertido en una parte integral de las aplicaciones modernas de inteligencia artificial, impulsando herramientas como chatbots y generadores de código. Sin embargo,…