Investigadores de la Universidad de Tsinghua proponen ReMoE: una arquitectura MoE totalmente diferenciable con enrutamiento ReLU
El desarrollo de los modelos Transformer ha avanzado significativamente la inteligencia artificial, ofreciendo un rendimiento notable en diversas tareas. Sin embargo, estos avances a menudo conllevan elevados requisitos computacionales, lo…