Alibaba lanza Qwen1.5-MoE-A2.7B: un modelo MoE pequeño con solo 2,7 mil millones de parámetros activados pero que iguala el rendimiento de modelos 7B de última generación como Mistral 7B
En los últimos tiempos, la arquitectura Mixture of Experts (MoE) se ha vuelto significativamente popular con el lanzamiento del modelo Mixtral. Profundizando en el estudio de los modelos MoE, un…