Investigadores de la Universidad de Washington presentan Fiddler: un motor de inferencia con uso eficiente de recursos para LLM con orquestación CPU-GPU
Los modelos de combinación de expertos (MoE) han revolucionado la inteligencia artificial al permitir la asignación dinámica de tareas a componentes especializados dentro de modelos más grandes. Sin embargo, un…