Investigadores de Microsoft presentan una implementación novedosa de MH-MoE: lograr FLOP y paridad de parámetros con modelos dispersos de mezcla de expertos

El aprendizaje automático está avanzando rápidamente, particularmente en áreas que requieren un procesamiento de datos extenso, como la comprensión del lenguaje natural y la IA generativa. Los investigadores se esfuerzan constantemente por diseñar algoritmos que maximicen la eficiencia computacional y al mismo tiempo mejoren la precisión y el rendimiento de los modelos a gran escala. Estos esfuerzos son fundamentales para construir sistemas capaces de gestionar las complejidades de la representación del lenguaje, donde la precisión y la optimización de los recursos son clave.

Un desafío persistente en este campo es equilibrar la eficiencia computacional con la precisión del modelo, especialmente a medida que las redes neuronales escalan para manejar tareas cada vez más complejas. Las arquitecturas dispersas de mezcla de expertos (SMoE) se han mostrado prometedoras al utilizar la selección dinámica de parámetros para mejorar el rendimiento. Sin embargo, estos modelos a menudo necesitan ayuda para procesar espacios de representación múltiple de manera efectiva, lo que limita su capacidad para explotar plenamente los datos disponibles. Esta ineficiencia ha creado una demanda de métodos más innovadores para aprovechar diversos espacios de representación sin comprometer los recursos computacionales.

Las arquitecturas SMoE tradicionalmente utilizan mecanismos de activación para enrutar tokens a expertos específicos, optimizando el uso de recursos computacionales. Estos modelos han tenido éxito en diversas aplicaciones, particularmente a través de métodos de activación top-1 y top-2. Sin embargo, si bien estos métodos destacan por la eficiencia de los parámetros, no pueden aprovechar todo el potencial de los datos multirrepresentacionales. Además, el enfoque estándar de incorporar capas dispersas dentro de un marco Transformer limita su capacidad para escalar de manera efectiva mientras se mantiene la eficiencia operativa.

Investigadores de Microsoft han presentado una implementación novedosa del marco MH-MoE. Este diseño se basa en los cimientos de SMoE y aborda sus limitaciones. La implementación de MH-MoE permite el procesamiento eficiente de diversos espacios de representación mediante la introducción de un mecanismo de múltiples cabezales y la integración de capas de proyección. Este enfoque garantiza que se preserve la eficiencia computacional y de parámetros de los modelos SMoE tradicionales al tiempo que mejora significativamente su capacidad de representación.

La metodología detrás de MH-MoE se centra en mejorar el flujo de información a través de un mecanismo refinado de múltiples cabezas. Los tokens de entrada se dividen en subtokens, se enrutan a distintos cabezales y luego se procesan en paralelo. Este proceso se ve facilitado por capas de proyección lineal que transforman los tokens antes y después de pasar por la capa de mezcla de expertos. Al ajustar las dimensiones intermedias y optimizar el mecanismo de activación, el modelo garantiza la paridad de FLOP con los modelos SMoE tradicionales. En una configuración, los investigadores utilizaron dos cabezales con una dimensión intermedia de 768 y control de los 2 primeros, aumentando el número de expertos a 40. Otra configuración empleó tres cabezales con una dimensión intermedia de 512, utilizando control de los 3 primeros y 96 expertos. Estos ajustes ilustran la adaptabilidad de MH-MoE para alinear su eficiencia computacional con los objetivos de rendimiento.

Los experimentos demostraron que MH-MoE superó consistentemente a los modelos SMoE existentes en varios puntos de referencia. En las tareas de modelado del lenguaje, el modelo logró mejoras significativas en la perplejidad, una medida de la precisión del modelo. Por ejemplo, después de 100.000 pasos de entrenamiento, el MH-MoE de tres cabezas logró una perplejidad de 10,51 en el conjunto de datos de RedPajama en comparación con 10,74 para SMoE de grano fino y 10,90 para SMoE estándar. En el conjunto de datos Wiki, el MH-MoE de tres cabezas logró una perplejidad de 9,18, lo que subraya aún más su rendimiento superior. Además, en experimentos que involucran cuantificación de 1 bit usando BitNet, MH-MoE mantuvo su ventaja de rendimiento, logrando una perplejidad de 26,47 después de 100.000 pasos en el conjunto de datos RedPajama en comparación con 26,68 para SMoE de grano fino y 26,78 para SMoE estándar.

Los estudios de ablación realizados por el equipo de investigación resaltaron la importancia de la cabeza y las capas de fusión en el diseño del MH-MoE. Estos estudios demostraron que ambos componentes contribuyen significativamente al rendimiento del modelo, y la capa principal ofrece una mejora más sustancial que la capa de fusión. Por ejemplo, agregar la capa principal redujo la perplejidad en el conjunto de datos de RedPajama de 11,97 a 11,74. Estos hallazgos enfatizan el papel fundamental de estas capas en la mejora de la capacidad del modelo para integrar y utilizar datos multirrepresentacionales.

Los esfuerzos de los investigadores han dado como resultado un modelo que aborda las limitaciones clave de los marcos SMoE tradicionales y al mismo tiempo establece un nuevo punto de referencia para el rendimiento y la eficiencia. MH-MoE ofrece una solución sólida para escalar eficazmente redes neuronales aprovechando mecanismos de múltiples cabezales y optimizando el diseño computacional. Esta innovación marca un paso significativo en el desarrollo de modelos de aprendizaje automático potentes y eficientes.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Investigadores de Microsoft presentan una implementación novedosa de MH-MoE: lograr FLOP y paridad de parámetros con modelos dispersos de mezcla de expertos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Nous Research lanza Hermes Desktop: una interfaz nativa multiplataforma para Hermes Agent v0.15.2 con salida de herramienta de transmisión

Investigadores del MIT enseñan modelos de IA a interpretar gráficos | Noticias del MIT

Los modelos OpenAI y Codex en Amazon Bedrock ya están disponibles de forma generalizada

You missed

¡Feliz mes del orgullo! Recordando el legado histórico de Sally Ride, foto del día del 3 de junio de 2026

El nuevo requisito ETIAS de entrada de 20 euros para el Reino Unido y España para los británicos se retrasa debido al caótico lanzamiento del control fronterizo de entrada/salida

Actualizaciones sobre la carrera primaria – Hollywood Life

Un fármaco antienvejecimiento prometedor puede causar daño cerebral, advierten los científicos: ScienceAlert