Investigadores de Princeton y Meta AI presentan ‘Lory’: un modelo MoE totalmente diferenciable diseñado para el preentrenamiento del modelo de lenguaje autorregresivo
Las arquitecturas de combinación de expertos (MoE) utilizan activación dispersa para inicializar el escalado de los tamaños del modelo y al mismo tiempo preservan una alta eficiencia de inferencia y…