Los investigadores de Moonshot AI y UCLA liberan a Moonlight: un modelo de mezcla 3B/16B-Parameter (MOE) entrenado con tokens 5.7t usando Muon Optimizer

La capacitación de grandes modelos de idiomas (LLM) se ha vuelto central para avanzar en la inteligencia artificial, sin embargo, no está exento de desafíos. A medida que los tamaños del modelo y los conjuntos de datos continúan creciendo, los métodos de optimización tradicionales, la mayoría de los Adamw, se encuentran en el Begin para mostrar sus limitaciones. Una de las principales dificultades es administrar el costo computacional y garantizar la estabilidad a lo largo de las carreras de capacitación extendida. Problemas como los gradientes de desaparición o explosión, las magnitudes de actualización inconsistentes en diversas matrices de parámetros, y las fuertes demandas de recursos de los entornos distribuidos complican el proceso. En esencia, a medida que los investigadores empujan hacia modelos con miles de millones de parámetros y billones de tokens, existe una necesidad apremiante de técnicas de optimización más refinadas que puedan manejar estas complejidades con una mayor eficiencia y estabilidad.

En un esfuerzo por abordar estos desafíos, Moonshot AI en colaboración con UCLA ha desarrollado la luz de la luna, un modelo de mezcla de expertos (MOE) optimizado con el Muon Optimizer. Moonlight se ofrece en dos configuraciones: una versión con 3 mil millones de parámetros activados y un total de 16 mil millones de parámetros, entrenados en 5.7 billones de tokens. Este trabajo se basa en el Muon Optimizer, originalmente diseñado para modelos más pequeños, al ampliar sus principios para satisfacer las demandas de regímenes de capacitación más grandes. La innovación central de Muon radica en su uso de la ortogonalización de Matrix a través de las iteraciones de Newton-Schulz. Este método ayuda a garantizar que las actualizaciones de gradiente se apliquen de manera más uniforme en todo el espacio de parámetros del modelo. Al abordar las dificultades comunes asociadas con Adamw, Muon proporciona una alternativa prometedora que mejora la eficiencia de entrenamiento y la estabilidad.

Detalle técnico

Una mirada más cercana a las innovaciones técnicas detrás de Moonlight revela los ajustes reflexivos realizados al Muon Optimizer. Dos modificaciones principales fueron clave para hacer que Muon sea adecuado para el entrenamiento a gran escala. Primero, la integración de la descomposición de peso, una técnica comúnmente utilizada con ADAMW, ayuda para controlar el crecimiento de las magnitudes de peso, particularmente cuando se entrenan con modelos grandes y recuentos de token extensos. Sin una descomposición de peso, los pesos y las salidas de capas pueden crecer excesivamente, potencialmente degradando el rendimiento del modelo con el tiempo.

El segundo ajuste implica calibrar la escala de actualización por parámetro. En la práctica, la magnitud de actualización en Muon puede variar según la forma de las matrices de peso. Para armonizar estas actualizaciones, el método las escala por un factor proporcional a la raíz cuadrada de la dimensión más grande de cada matriz. Este cambio alinea el comportamiento de Muon más estrechamente con el rendimiento bien entendido de Adamw y asegura que todos los parámetros se actualicen de manera consistente.

Además, la implementación distribuida de Muon se basa en técnicas de cero-1, estados optimizadores de partición en grupos de datos paralelos. Este enfoque reduce la sobrecarga de la memoria y limita los costos de comunicación típicamente asociados con la capacitación distribuida. Aunque se requieren pasos adicionales, como recolectar gradientes y realizar iteraciones de Newton-Schulz, estos se han optimizado para que su impacto en el tiempo general de entrenamiento sea mínimo. El resultado es un optimizador que mantiene un rendimiento competitivo al tiempo que requiere menos recursos computacionales.

Ideas de resultados empíricos y análisis de datos

Las evaluaciones empíricas de la luz de la luna subrayan los beneficios prácticos de estas mejoras técnicas. En un punto de control intermedio de 1.2 billones de tokens, Moonlight demostró mejoras modestas sobre su contraparte entrenada con Adamw (denominado Moonlight-A) y otros modelos MOE similares. Por ejemplo, en tareas que evalúan la comprensión del lenguaje, la luz de la luna logró puntajes ligeramente más altos en puntos de referencia como MMLU. En las tareas de generación de código, sus ganancias de rendimiento fueron aún más evidentes, lo que sugiere que la mecánica de actualización refinada de Muon contribuye a un mejor rendimiento general de la tarea.

Los experimentos de la ley de escala ilustran aún más las ventajas de Muon. Estos experimentos revelan que Muon puede igualar el rendimiento de los modelos entrenados con ADAMW mientras usa solo aproximadamente la mitad del costo computacional de entrenamiento. Esta eficiencia es una consideración importante para los investigadores que equilibran las limitaciones de recursos con el deseo de impulsar las capacidades del modelo. Además, el análisis espectral de las matrices de peso indica que el entrenamiento de Moonlight con Muon conduce a una gama más diversa de valores singulares. Dicha diversidad en las instrucciones de actualización puede ayudar al modelo a generalizarse mejor en varias tareas.

Estudios adicionales durante la fase de ajuste fino supervisada indican que cuando se realizan tanto antes y al ajuste fino con Muon, los beneficios de este optimizador persisten en toda la tubería de entrenamiento. En los casos en que el optimizador se cambia entre el pretrénmente y el ajuste fino, las diferencias son menos pronunciadas, lo que sugiere que la consistencia en el método de optimización es beneficiosa.

Conclusión

En resumen, el desarrollo de la luz de la luna representa un avance reflexivo en la capacitación de modelos de idiomas grandes. Al adoptar el Muon Optimizer, el equipo de Moonshot AI y UCLA ha proporcionado una alternativa viable a los métodos tradicionales como Adamw, lo que demuestra mejoras en la eficiencia de entrenamiento y la estabilidad del modelo. Las mejoras clave incluyen la integración de la descomposición de peso y los ajustes a la escala de actualización perparaméter, las cuales ayudan a armonizar las actualizaciones en diferentes tipos de matrices de peso. La implementación distribuida subraya aún más los beneficios prácticos de este enfoque, particularmente en la reducción de la sobrecarga de memoria y comunicación en entornos de capacitación a gran escala.

Las ideas obtenidas del Proyecto Moonlight están claramente articuladas en el informe técnico: “Muon es escalable para la capacitación de LLM”. Este trabajo muestra que, en condiciones de cómputo óptimas, Muon puede lograr un rendimiento comparable o incluso superior a ADAMW al tiempo que reduce significativamente el costo computacional. El informe también destaca que la transición de Adamw a Muon no requiere un ajuste extenso de hiperparaméter, simplificando el proceso de integración para los investigadores.

Mirando hacia el futuro, se espera que la implementación de la implementación de muones junto con los modelos previos a la aparición y los puntos de control intermedios fomenten una mayor investigación sobre técnicas de optimización escalables. El trabajo futuro puede explorar la extensión de Muon a otras restricciones de normas o integrar sus beneficios en un marco de optimización unificado que cubre todos los parámetros del modelo. Tales esfuerzos podrían conducir a estrategias de capacitación aún más robustas y eficientes, configurando gradualmente un nuevo estándar para el desarrollo de LLM.


    Verificar el Papel, Modelo en la cara abrazada y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

    🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


    Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.