En una investigación reciente, un equipo de investigadores de IEIT Systems desarrolló Yuan 2.0-M32, un modelo sofisticado construido utilizando la arquitectura Mixture of Experts (MoE). Similar en diseño básico al Yuan-2.0 2B, se distingue por el uso de 32 expertos. El modelo tiene una estructura computacional eficiente porque sólo dos de estos expertos están activos para el procesamiento en un momento dado.
A diferencia de las redes de enrutadores convencionales, este modelo presenta una red de enrutador de atención única que mejora la selección de expertos y aumenta la precisión general. Para entrenar el Yuan 2.0-M32, se procesó desde el principio un conjunto de datos considerable de 2.000 mil millones de tokens. El consumo computacional del modelo para entrenamiento, incluso con una cantidad tan grande de datos, fue solo el 9,25% de los requisitos de un modelo denso con una escala de parámetros similar.
En términos de rendimiento, Yuan 2.0-M32 mostró una capacidad notable en varias áreas, como matemáticas y codificación. Utilizando 7,4 Gflops de cálculo directo por token, el modelo utilizó sólo 3,7 mil millones de parámetros activos de un total de 40 mil millones. Teniendo en cuenta que estos números sólo representan 1/19 de los requisitos del modelo Llama3-70B, son bastante eficientes.
Yuan 2.0-M32 tuvo un desempeño admirable en los puntos de referencia, superando a Llama3-70B con puntuaciones de 55,89 y 95,8, respectivamente, en los puntos de referencia MATH y ARC-Challenge, al tiempo que tenía un conjunto de parámetros activos más pequeño y una huella computacional más pequeña.
Un avance importante es la adopción del Attention Router por parte de Yuan 2.0-M32. Este mecanismo de enrutamiento mejora la precisión y el rendimiento del modelo al optimizar el proceso de selección al concentrarse en los expertos más pertinentes para cada tarea. A diferencia de las técnicas tradicionales, esta forma única de selección de expertos enfatiza el potencial de mayor precisión y eficiencia en los modelos MoE.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- El equipo ha presentado el Attention Router, que considera la correlación entre especialistas. En comparación con las técnicas de enrutamiento convencionales, este método produce una notable ganancia en precisión.
- El equipo ha creado y puesto a disposición el modelo Yuan 2.0-M32, que tiene 40 mil millones de parámetros totales, 3,7 mil millones de los cuales están activos. Sólo dos expertos están activos en cada token de este paradigma, que utiliza una estructura de treinta y dos expertos.
- El entrenamiento de Yuan 2.0-M32 es extremadamente efectivo y utiliza solo 1/16 de la potencia informática requerida para un modelo denso con una cantidad comparable de parámetros. El coste informático de la inferencia es comparable al de un modelo denso con 3.700 millones de parámetros. Esto garantiza que el modelo mantenga su eficiencia y rentabilidad durante el entrenamiento y en escenarios del mundo real.
Revisar la Papel, Modelo, y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.