Huawei presenta Pangu Ultra Moe: un modelo de lenguaje disperso 718b-parameter entrenado de manera eficiente en NPUS Ascend utilizando arquitectura basada en simulación y optimización a nivel de sistema
Los modelos de lenguaje grande (LLM) basados en la mezcla del marco de expertos (MOE) han ganado tracción por su capacidad de escala de manera eficiente activando solo un subconjunto…