Los investigadores del MIT desarrollan métodos para controlar la sensibilidad del transformador con límites de Lipschitz y Muón comprobables

Entrenamiento de transformadores a gran escala de forma estable ha sido un desafío de larga data en aprendizaje profundoparticularmente a medida que los modelos crecen en tamaño y expresividad. Los investigadores del MIT abordan un problema persistente en su raíz: el crecimiento inestable de activaciones y picos de pérdida causados por normas de peso y activación sin restricciones. Su solución es hacer cumplir Límites de Lipschitz comprobables en el transformador *regulando espectralmente los pesos: *sin uso de la normalización de activación, la norma QK o los trucos de captura suave logit.

¿Qué está atado a Lipschitz y por qué hacerla cumplir?

A Lipschitz atado En una red neuronal cuantifica la cantidad máxima por la cual la salida puede cambiar en respuesta a las perturbaciones de entrada (o peso). Matemáticamente, una función fff es kkk-lipschitz if: ∥f (x1) −f (x2) ∥≤k∥x1-x2∥ ∀x1, x2 | f (x_1)-f (x_2) | leq k | x_1 – x_2 | Forall x_1, x_2∥f (x1) -f (x2) ∥≤k∥x1 – x2∥ ∀x1, x2

  • Lipschitz inferior atado ⇒ mayor robustez y previsibilidad.
  • Es crucial para la estabilidad, la robustez adversa, la privacidad y la generalización, con límites más bajos, lo que significa que la red es menos sensible a los cambios o el ruido adversario.

Motivación y declaración de problemas

Tradicionalmente, el entrenamiento de transformadores estables a escala ha involucrado una variedad de trucos de estabilización de “banda de ayuda”:

  • Normalización de la capa
  • Normalización de QK
  • Logit Tanh Softpapping

Pero estos no abordan directamente el crecimiento de la norma espectral subyacente (valor singular más grande) en los pesos, una causa raíz de activaciones explosivas e inestabilidad de entrenamiento, especialmente en modelos grandes.

El hipótesis central: Si regulamos espectralmente los pesos en sí mismos, solo el optimizador o las activaciones, podemos mantener un control estricto sobre Lipschitzness, potencialmente resolviendo inestabilidad en su fuente.

Innovaciones clave

Regulación espectral de peso y el optimizador de muones

  • Muón Optimizer espectralmente regulariza gradienteasegurarse de que cada paso de gradiente no aumente la norma espectral más allá de un límite establecido.
  • Los investigadores extender la regulación a los pesos: Después de cada paso, aplican operaciones a Cape los valores singulares de cada matriz de peso. Las normas de activación se mantienen notablemente pequeñas Como resultado, rara vez excede los valores compatibles con la precisión FP8 en sus transformadores de escala GPT-2.

Eliminar trucos de estabilidad

En todos los experimentos, Sin normalización de la capa, sin norma QK, no se usaron Logit Tanh. Todavía,

  • Entradas de activación máxima en Su transformador de escala GPT-2 nunca excedió ~ 100, mientras que la línea de base sin restricciones superó los 148,000.

Muestra de tabla (experimento de nanogpt)

Modelo Activación máxima Trucos de estabilidad de la capa Precisión de validación Lipschitz atado
Línea de base (Speedrun) 148,480 39.4%
Transformador de Lipschitz 160 Ninguno 39.5% 10¹⁰²⁶⁴

Métodos para hacer cumplir las restricciones de Lipschitz

Una variedad de Métodos de restricción de normas de peso fueron explorados y comparados por su capacidad para:

  1. Mantener un alto rendimiento,
  2. Garantizar un Lipschitz atadoy
  3. Optimizar la compensación de rendimiento de Lipschitz.

Técnicas

  • Descomposición de peso: Método estándar, pero no siempre estricto en la norma espectral.
  • Normalización espectral: Asegura que el valor singular superior esté limitado, pero puede afectar todos los valores singulares a nivel mundial.
  • Tapa suave espectral: El método novedoso, se aplica suave y eficientemente σ → min⁡ (σmax, σ) sigma a min (sigma_ {text {max}}, sigma) σ → min (σmax, σ) a todos los valores singulares en paralelo (usando aproximaciones polinomiales impares). Esto se diseña codiseñados para las actualizaciones de alto rango estable de Muon para límites estrechos.
  • Martillo espectral: Establece solo el valor singular más grande para σmaxsigma_ {text {max}} σmax, más adecuado para Adamw Optimizer.

Resultados e ideas experimentales

Evaluación del modelo a varias escalas

  1. Shakespeare (transformador pequeño, <2-lipschitz):
    • Logra el 60% de precisión de validación con un Lipschitz comprobable que se encuentra a continuación.
    • Superenta un rendimiento no restringido en la pérdida de validación.
  2. Nanogpt (parámetros de 145m):
    • Con un Lipschitz Bound <10, precisión de validación: 21.2%.
    • A fósforo la fuerte línea de base sin restricciones (39.4% de precisión), requirió un gran límite superior de 1026410^{264} 10264. Esto resalta cómo las estrictas restricciones de Lipschitz a menudo se intercambian con expresividad a grandes escalas por ahora.

Eficiencia del método de restricción de peso

  • Muon + tapa espectral: Lidera la frontera de compensación—Lower constantes de Lipschitz para una pérdida de validación coincidente o mejor en comparación con la descomposición de peso Adamw +.
  • Tapa blanda espectral y normalización (Bajo Muon) Permitir constantemente la mejor frontera en la compensación de Lipschitz de pérdida.

Estabilidad y robustez

  • Robustez adversa aumenta bruscamente en los límites inferiores de Lipschitz.
  • En experimentos, los modelos con una constante de Lipschitz limitada sufrieron una caída de precisión mucho más suave bajo un ataque adversario en comparación con las líneas de base no restringidas.

Magnitudes de activación

  • Con regulación de peso espectral: Las activaciones máximas siguen siendo pequeñas (compatibles con FP8), en comparación con las líneas de base ilimitadas, incluso a escala.
  • Esto abre vías para Entrenamiento e inferencia de baja precisión En el hardware, donde las activaciones más pequeñas reducen el cálculo, la memoria y los costos de energía.

Limitaciones y preguntas abiertas

  • Seleccionar la compensación “más ajustada” Para las normas de peso, la escala logit y la escala de atención todavía se basan en barridos, no en principio.
  • El límite actual está suelto: Los límites globales calculados pueden ser astronómicamente grandes (por ejemplo, 1026410^{264} 10264), mientras que las normas de activación reales siguen siendo pequeñas.
  • No está claro si el rendimiento de línea de base sin restricciones coincidentes con límites de Lipschitz estrictamente pequeños es posible a medida que aumenta la escala, aumenta la escala (Se necesita más investigación.

Conclusión

La regulación de peso espectral, especialmente cuando se combina con el optimizador de muones, puede entrenar de forma estable grandes transformadores con límites de Lipschitz, sin activación, normalización u otros trucos de ayuda de banda. Esto aborda la inestabilidad en un nivel más profundo y mantiene las activaciones en un rango compacto y predecible, mejorando en gran medida la robustez adversa y potencialmente eficiencia del hardware.

Esta línea de trabajo apunta a nuevas primitivas computacionales eficientes para la regulación de la red neuronal, con amplias aplicaciones de privacidad, seguridad e implementación de IA de baja precisión.


Mira el Papel, Página de Github y Página de Proyecto de Face de Abrazo. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.