Screenshot 2024 03 29 At 12.50.57 Pm.png

En los últimos tiempos, la arquitectura Mixture of Experts (MoE) se ha vuelto significativamente popular con el lanzamiento del modelo Mixtral. Profundizando en el estudio de los modelos MoE, un equipo de investigadores del equipo Qwen, Alibaba Cloud, ha presentado Qwen1.5que es la versión mejorada de Qwen, la serie Large Language Model (LLM) desarrollada por ellos.

Qwen1.5-MoE-A2.7B ha representado un avance notable y funciona a la par con modelos 7B pesados ​​como Mistral 7B y Qwen1.5-7B, incluso con sus pequeños 2.700 millones de parámetros activados. Es un sucesor de Qwen1.5-7B, con un recuento de parámetros de activación reducido de aproximadamente un tercio, lo que significa una reducción del 75 % en los costos de capacitación. Muestra un aumento de 1,74 veces en la velocidad de inferencia, lo que demuestra ganancias notables en la eficiencia de los recursos sin sacrificar el rendimiento.

La arquitectura Qwen1.5-MoE-A2.7B es un ejemplo de pensamiento creativo y buena optimización. Una mejora significativa es el uso de expertos detallados, que permite un mayor número de expertos sin aumentar el número de parámetros. Este método, que utiliza 64 expertos en lugar de los 8 tradicionales, aumenta considerablemente la capacidad del modelo.

El rendimiento del modelo se ha visto muy influenciado por la etapa de inicialización. A lo largo de la capacitación, Qwen1.5-MoE-A2.7B mejora el rendimiento y una convergencia más rápida al reutilizar los modelos existentes y agregar aleatoriedad durante la inicialización. Utiliza un paradigma de enrutamiento MoE generalizado que incorpora expertos tanto compartidos como específicos de rutas. Esta disposición contribuye a la eficacia general del modelo proporcionando mayor flexibilidad y eficiencia en la construcción del mecanismo de enrutamiento.

Los análisis exhaustivos de muchos conjuntos de datos de referencia han puesto de relieve el rendimiento competitivo del modelo. Su superioridad se ha demostrado en una variedad de dominios, como multilingüismo, codificación, comprensión del lenguaje y matemáticas, en comparación con otros modelos del MoE con recuentos de parámetros similares y modelos base 7B de alto rendimiento.

Este modelo es particularmente atractivo debido a su excepcional velocidad de inferencia y rentabilidad del entrenamiento. En comparación con los modelos 7B convencionales, este modelo logra una disminución del 75 % en los costos de capacitación al reducir considerablemente el recuento de parámetros no integrados. Además, gracias a los expertos compartidos integrados y la arquitectura MoE optimizada, su velocidad de inferencia aumenta 1,74 veces.

En conclusión, Qwen1.5-MoE-A2.7B significa un cambio de paradigma en la eficiencia del enfoque. Demuestra el potencial de las arquitecturas MoE al igualar el rendimiento de los modelos 7B con una fracción de los parámetros. Este modelo marca el inicio de una nueva fase en la optimización de la ciencia de datos, con ahorros notables en gastos de capacitación y tiempo de inferencia.


Revisar la Modelos en HF y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.