El equipo de Skywork presenta Skywork-MoE: un modelo de combinación de expertos (MoE) de alto rendimiento con 146 mil millones de parámetros, 16 expertos y 22 mil millones de parámetros activados

El desarrollo de grandes modelos de lenguaje (LLM) ha sido un punto focal en el avance de las capacidades de PNL. Sin embargo, entrenar estos modelos plantea desafíos sustanciales debido a los inmensos recursos computacionales y costos involucrados. Los investigadores exploran continuamente métodos más eficientes para gestionar estas demandas manteniendo un alto rendimiento.

Un tema crítico en el desarrollo de LLM son los amplios recursos necesarios para entrenar modelos densos. Los modelos densos activan todos los parámetros para cada token de entrada, lo que genera ineficiencias significativas. Este enfoque dificulta la ampliación sin incurrir en costos prohibitivos. En consecuencia, existe una necesidad apremiante de métodos de formación más eficientes en el uso de recursos que aún puedan ofrecer un rendimiento competitivo. El objetivo principal es equilibrar la viabilidad computacional y la capacidad de manejar tareas complejas de PNL de manera efectiva.

Tradicionalmente, la formación LLM se ha basado en modelos densos y que requieren muchos recursos a pesar de su alto rendimiento. Estos modelos requieren la activación de todos los parámetros para cada token, lo que genera una carga computacional sustancial. Los modelos dispersos, como la Mezcla de Expertos (MoE), han surgido como una alternativa prometedora. Los modelos MoE distribuyen tareas computacionales entre varios submodelos especializados o “expertos”. Este enfoque puede igualar o superar el rendimiento de los modelos densos utilizando una fracción de los recursos. La eficiencia de los modelos MoE radica en su capacidad para activar selectivamente solo un subconjunto de expertos para cada token, optimizando así el uso de recursos.

Se presenta el equipo de investigación Skywork Team, Kunlun Inc. Skywork-MoE, un modelo de lenguaje grande MoE de alto rendimiento con 146 mil millones de parámetros y 16 expertos. Este modelo se basa en la arquitectura fundamental de su modelo Skywork-13B desarrollado previamente, utilizando sus densos puntos de control como configuración inicial. El Skywork-MoE Incorpora dos técnicas de entrenamiento novedosas: normalización logit de activación y coeficientes de pérdida auxiliar adaptativos. Estas innovaciones están diseñadas para mejorar la eficiencia y el rendimiento del modelo. Al aprovechar puntos de control densos, el modelo se beneficia de datos preexistentes, lo que ayuda en la configuración inicial y en las fases de entrenamiento posteriores.

Skywork-MoE se entrenó utilizando puntos de control densos del modelo Skywork-13B, se inicializó a partir de modelos densos previamente entrenados para 3,2 billones de tokens y se entrenó adicionalmente con 2 billones de tokens adicionales. La técnica de normalización logit de entrada garantiza una distribución distinta de la producción en la puerta, lo que mejora la diversificación de las exportaciones. Este método implica normalizar las salidas de la capa de activación antes de aplicar la función softmax, lo que ayuda a lograr una distribución más nítida y enfocada. Los coeficientes de pérdida auxiliar adaptables permiten un ajuste específico de cada capa, manteniendo una carga equilibrada entre los expertos y evitando que un solo experto se sobrecargue. Estos ajustes se basan en monitorear la tasa de caída de tokens y adaptar los coeficientes en consecuencia.

El desempeño de Skywork-MoE se evaluó a través de una variedad de puntos de referencia. El modelo obtuvo una puntuación de 82,2 en el punto de referencia CEVAL y 79,5 en el punto de referencia CMMLU, superando al modelo Deepseek-67B. El punto de referencia MMLU obtuvo una puntuación de 77,4, lo que es competitivo en comparación con modelos de mayor capacidad como el Qwen1.5-72B. Para tareas de razonamiento matemático, Skywork-MoE obtuvo una puntuación de 76,1 en GSM8K y 31,9 en MATH, superando cómodamente a modelos como Llama2-70B y Mixtral 8*7B. Skywork-MoE demostró un rendimiento sólido en tareas de síntesis de código con una puntuación de 43,9 en el punto de referencia HumanEval, superando a todos los modelos densos en la comparación y ligeramente por detrás del modelo Deepseek-V2. Estos resultados resaltan la capacidad del modelo para manejar eficazmente tareas complejas de razonamiento lógico y cuantitativo.

En conclusión, el equipo de investigación del equipo Skywork abordó con éxito el tema de la formación LLM que requiere muchos recursos mediante el desarrollo Skywork-MoE, que aprovecha técnicas innovadoras para mejorar el rendimiento y al mismo tiempo reducir las demandas computacionales. Skywork-MoE, con sus 146 mil millones de parámetros y metodologías de capacitación avanzadas, representa un avance significativo en el campo de la PNL. El sólido desempeño del modelo en varios puntos de referencia subraya la efectividad de las técnicas de normalización logit de activación y coeficientes de pérdida auxiliares adaptativos. Esta investigación compite bien con los modelos existentes y establece un nuevo punto de referencia para la eficiencia y eficacia de los modelos MoE en tareas de procesamiento del lenguaje a gran escala.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.