Screenshot 2024 05 12 At 10.15.39 Am.png

Las arquitecturas de combinación de expertos (MoE) utilizan activación dispersa para inicializar el escalado de los tamaños del modelo y al mismo tiempo preservan una alta eficiencia de inferencia y entrenamiento. Sin embargo, entrenar la red de enrutadores crea el desafío de optimizar un objetivo discreto y no diferenciable a pesar del escalamiento eficiente de los modelos MoE. Recientemente, se introdujo una arquitectura MoE llamada SMEAR, que es completamente no diferenciable y fusiona suavemente a los expertos en el espacio de parámetros. SMEAR es muy eficiente, pero su efectividad se limita a experimentos de ajuste a pequeña escala en tareas de clasificación posteriores.

Los modelos MoE escasamente activados han surgido como un método útil para ampliar el tamaño de los modelos de manera eficiente. La escasa arquitectura MoE se adapta a modelos transformadores para lograr un mejor rendimiento en la traducción automática. Los modelos MoE tradicionales están entrenados para enrutar datos de entrada a módulos expertos, lo que da como resultado un problema de aprendizaje de decisiones discreto y no diferenciable. Además, se utilizan estrategias de enrutamiento top 1 o top 2 para entrenar estos modelos existentes en función de un objetivo de equilibrio de carga diseñado. Los modelos del Ministerio de Educación son complicados cuando se entrenan, lo que crea el problema de inestabilidad en la capacitación, subespecialización de expertos y capacitación ineficiente.

Presentan investigadores de la Universidad de Princeton y Meta AI Lori, un método para escalar arquitecturas MoE al preentrenamiento de modelos de lenguaje autorregresivos. Lory consta de dos técnicas principales: (a) una estrategia de enrutamiento de segmentos casuales que es eficiente en operaciones de fusión de expertos manteniendo la naturaleza autorregresiva de los modelos de lenguaje (LM), y (b) un método de procesamiento por lotes de datos basado en similitudes que respalda la especialización experta mediante crear grupos para documentos similares durante la capacitación. Además, los modelos Lory superan a los modelos MoE de última generación con la ayuda del enrutamiento a nivel de token en lugar del enrutamiento a nivel de segmento.

El enrutamiento casual de segmentos, la primera técnica, se divide en segmentos más pequeños con una longitud fija para una secuencia de tokens de entrada. El segmento original se utiliza para obtener el peso del enrutador y evaluar al experto fusionado para el segmento siguiente. El enrutamiento a nivel de segmento realizado mediante indicaciones durante la inferencia puede conducir a una especialización insuficiente de los expertos porque los datos de texto para los modelos de lenguaje previo al entrenamiento generalmente combinan conjuntos aleatorios de documentos. Entonces, la segunda técnica, es decir, el procesamiento por lotes de datos basado en similitudes para la capacitación del MoE, supera este desafío al agrupar documentos similares para crear segmentos secuenciales. Esta técnica se utiliza para entrenar LM, lo que da como resultado un entrenamiento eficiente para el enrutamiento experto.

Lory muestra resultados sobresalientes por varios factores. Ellos son:

  • Eficiencia y convergencia de la formación: Lory logra un nivel de pérdida equivalente con menos de la mitad de los tokens de entrenamiento para los modelos 0.3B y 1.5B, lo que indica un mejor rendimiento con el mismo cálculo de entrenamiento.
  • Modelado de lenguaje: Los modelos MoE propuestos superan la base de referencia densa en todos los dominios, lo que lleva a una disminución de la perplejidad. Por ejemplo, en comparación con el modelo denso 0,3B, los modelos 0,3B/32E logran una mejora relativa del 13,9% en Libros.
  • Tareas posteriores: El modelo 0.3B/32E logra un aumento de rendimiento promedio de +3,7% en razonamiento de sentido común, +3,3% en comprensión lectora, +1,5% en comprensión lectora y +11,1% en clasificación de textos.

En conclusión, los investigadores de la Universidad de Princeton y Meta AI propusieron Lory, un modelo MoE totalmente diferenciable diseñado para el preentrenamiento del modelo de lenguaje autorregresivo. Lory consta de dos técnicas principales: una estrategia de enrutamiento de segmentos casuales y un método de procesamiento por lotes de datos basado en similitudes. El método propuesto supera a su homólogo denso en el modelado del lenguaje y las tareas posteriores, y los expertos capacitados están altamente especializados y son capaces de capturar información a nivel de dominio. El trabajo futuro incluye ampliar Lory e integrar el enrutamiento a nivel de token y segmento mediante el desarrollo de métodos de decodificación eficientes para Lory.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.