Muon Optimizer acelera significativamente la ganancia en los transformadores: los investigadores de Microsoft exploran la influencia del optimizador en la generalización retrasada

Revisando el desafío de Grokking

En los últimos años, el fenómeno de quejido-dónde aprendizaje profundo Los modelos exhiben una transición retrasada pero repentina de la memorización a la generalización, ha provocado una investigación renovada sobre la dinámica de capacitación. Inicialmente observado en pequeñas tareas algorítmicas como la aritmética modular, Grokking revela que los modelos pueden alcanzar la precisión de entrenamiento casi perfecta, mientras que el rendimiento de la validación sigue siendo pobre durante un período prolongado. Finalmente, y a menudo abruptamente, el modelo comienza a generalizarse. Comprender lo que gobierna esta transición es importante no solo para la interpretabilidad, sino también para optimizar la eficiencia de capacitación en redes profundas. Estudios anteriores han destacado el papel de la descomposición de peso y la regularización. Sin embargo, la influencia específica de los optimizadores en este proceso ha sido subexplorada.

Investigar los efectos de los optimizadores en la ganancia

Este documento de IA de Microsoft examina el impacto de la elección del optimizador en el comportamiento de agitación. Específicamente, contrasta el rendimiento del ADAMW Optimizer ampliamente adoptado con Muon, un nuevo algoritmo de optimización que incorpora restricciones de normas espectrales e información de segundo orden. El estudio investiga si estas características permiten a Muon acelerar la fase de generalización.

Los experimentos abarcan siete tareas algorítmicas, operaciones aritméticas modulares y clasificación de paridad, utilizando una arquitectura transformadora moderna. Cada tarea está diseñada para exhibir de manera confiable el acumulación en condiciones de capacitación apropiadas. La investigación también incluye un análisis comparativo de variantes Softmax (estándar Softmax, Stablemax y Sparsemax) para evaluar si la normalización de la salida juega un papel secundario en la modulación de la dinámica de entrenamiento. Sin embargo, la investigación central se centra en el optimizador.

Diseño de arquitectura y optimización

La arquitectura del modelo subyacente adopta componentes del transformador estándar, implementados en Pytorch. Incluye autoatensión múltiple, incrustaciones posicionales giratorias (cuerda), normalización de RMS, activaciones de Silu y regularización basada en el abandono. Los tokens de entrada, valores o operadores anuméricos, están codificados a través de integridades de identidad simples.

La distinción clave radica en el comportamiento del optimizador:

AdamwUna línea de base en flujos de trabajo de aprendizaje profundo contemporáneo, utiliza tasas de aprendizaje adaptativo con descomposición de peso desacoplada.
Muónen contraste, aplica gradientes ortogonalizados, aplica restricciones de normas espectrales para estabilizar el entrenamiento y se aproxima a la curvatura de segundo orden para actualizaciones más informativas.

Estos mecanismos están destinados a promover una exploración más amplia durante la optimización, mitigar la inestabilidad (por ejemplo, “colapso softmax”) y sincronizar el progreso del aprendizaje entre las capas. La capacidad de Muon para regular la magnitud de actualización de acuerdo con las dimensiones de la capa es particularmente relevante para evitar las vías de memorización ineficientes.

Se incluyen tres configuraciones SoftMax (Softmax, Stablemax y Sparsemax) para evaluar si la estabilidad numérica o la escasez de la distribución de salida influyen en la agitación. Esto ayuda a garantizar que los efectos observados se propongan principalmente de la dinámica del optimizador en lugar de los matices de activación de salida.

Evaluación y resultados empíricos

El protocolo empírico del estudio está diseñado metódicamente. Cada combinación optimizador-softmax-task se evalúa en múltiples semillas para garantizar la robustez estadística. Grokking se define operacionalmente como la primera época donde la precisión de la validación supera el 95% después de la estabilización de la precisión de entrenamiento.

Los resultados indican una ventaja consistente y estadísticamente significativa para el muón. En promedio, Muon alcanza el umbral de Grokking en 102.89 épocas, en comparación con 153.09 épocas para Adamw. Esta diferencia no solo es numéricamente grande sino también estadísticamente rigurosa (t = 5.0175, p ≈ 6.33e – 8). Además, Muon demuestra una distribución más estricta de las épocas de giro en todas las condiciones, lo que sugiere trayectorias de entrenamiento más predecibles.

Todas las tareas se realizaron en las GPU NVIDIA H100 utilizando una base de código unificada y configuraciones estandarizadas. Las tareas incluyen adición modular, multiplicación, división, exponenciación, GCD y una tarea de paridad de 10 bits. Los tamaños del conjunto de datos variaron de 1.024 a 9.409 ejemplos, con divisiones de validación de entrenamiento ajustadas por tarea para mantener la consistencia.

Conclusión

Los resultados proporcionan una fuerte evidencia de que la geometría del optimizador influye significativamente en la aparición de la generalización en los modelos sobreparameterizados. Al dirigir la ruta de optimización a través de actualizaciones de segundo orden y restricciones de normas espectrales, Muon parece facilitar una ruta más directa hacia el descubrimiento de la estructura de datos subyacente, evitando las fases de sobreajuste prolongadas.

Este estudio subraya la necesidad más amplia de considerar la estrategia de optimización como un factor de primera clase en el diseño de capacitación neuronal. Si bien el trabajo previo enfatizó los datos y la regularización, estos resultados sugieren que la arquitectura de optimizador en sí misma puede desempeñar un papel fundamental en la configuración de la dinámica de entrenamiento.

Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Muon Optimizer acelera significativamente la ganancia en los transformadores: los investigadores de Microsoft exploran la influencia del optimizador en la generalización retrasada

ByEquipo de 7 minutos

Revisando el desafío de Grokking

Investigar los efectos de los optimizadores en la ganancia

Diseño de arquitectura y optimización

Evaluación y resultados empíricos

Conclusión

By Equipo de 7 minutos

Related Post

Google Cloud presenta el formato de conocimiento abierto (OKF): una especificación de descuento neutral para el proveedor para brindar a los agentes de IA un contexto seleccionado

En la teoría de juegos, los generalistas a veces ganan a los especialistas | Noticias del MIT

Recupera horas todos los días con agentes autónomos en Amazon Quick

You missed

El guardián de la Mallorca de Miró

Fecha de lanzamiento proyectada, reparto y más actualizaciones – Hollywood Life

Un estudio revela el número óptimo de pasos diarios para compensar estar sentado: ScienceAlert

Revelar su condición de VIH+ no es acoso criminal a su ex