Screenshot 2024 05 09 At 7.29.54 Am.png

Recientemente, ha habido un interés creciente en mejorar la generalización de las redes profundas mediante la regulación de la nitidez del paisaje de pérdidas. Sharpness Aware Minimization (SAM) ha ganado popularidad por su rendimiento superior en varios puntos de referencia, específicamente en la gestión del ruido aleatorio de etiquetas, superando a SGD por márgenes significativos. La solidez de SAM brilla particularmente en escenarios con ruido de etiquetas, mostrando mejoras sustanciales con respecto a las técnicas existentes. Además, la eficacia de SAM persiste incluso con una parametrización insuficiente, lo que potencialmente aumenta las ganancias con conjuntos de datos más grandes. Comprender el comportamiento de SAM, especialmente en las primeras fases de aprendizaje, resulta crucial para optimizar su rendimiento.

Si bien los mecanismos subyacentes de SAM siguen siendo difíciles de alcanzar, varios estudios han intentado arrojar luz sobre la importancia de la regularización por ejemplo en 1-SAM. Algunos investigadores demostraron que en una regresión escasa, 1-SAM muestra un sesgo hacia pesos más dispersos en comparación con el SAM ingenuo. Estudios anteriores también diferencian entre los dos al resaltar diferencias en la regularización de la «planicidad». Investigaciones recientes vinculan el ingenuo SAM con la generalización, lo que subraya la importancia de comprender el comportamiento de SAM más allá de la convergencia.

Investigadores de la Universidad Carnegie Mellon proporcionan un estudio que investiga por qué 1-SAM demuestra una mayor solidez para etiquetar ruido en comparación con SGD a nivel mecanicista. Al analizar la descomposición del gradiente de cada ejemplo, centrándose particularmente en la escala logit y los términos jacobianos de la red, la investigación identifica mecanismos clave que mejoran la precisión de las pruebas de detención temprana. En los modelos lineales, la ponderación explícita de los puntos de baja pérdida por parte de SAM resulta beneficiosa, especialmente en presencia de ejemplos mal etiquetados. Los hallazgos empíricos sugieren que la robustez del ruido de las etiquetas de SAM se origina principalmente en su término jacobiano en redes profundas, lo que indica un mecanismo fundamentalmente diferente en comparación con el término de escala logit. Además, el análisis de SAM solo jacobiano revela una descomposición en SGD con regularización ℓ2, lo que ofrece información sobre la mejora de su rendimiento. Estos hallazgos subrayan la importancia de la trayectoria de optimización en lugar de las propiedades de nitidez en la convergencia para lograr la robustez del ruido de las etiquetas de SAM.

A través de investigaciones experimentales sobre datos gaussianos de juguetes con ruido de etiqueta, SAM demuestra una precisión de prueba de parada temprana significativamente mayor en comparación con SGD. Al analizar el proceso de actualización de SAM, se hace evidente que su perturbación de peso adversario prioriza el aumento de peso de la señal de gradiente desde puntos de baja pérdida, manteniendo así altas contribuciones de ejemplos limpios en las primeras épocas de entrenamiento. Esta preferencia por datos limpios conduce a una mayor precisión de las pruebas antes de sobreajustarlas al ruido. El estudio arroja luz sobre el papel de la escala logit de SAM, mostrando cómo aumenta efectivamente los gradientes desde puntos de baja pérdida, mejorando en consecuencia el rendimiento general. Esta preferencia por puntos de baja pérdida se demuestra a través de pruebas matemáticas y observaciones empíricas, destacando el comportamiento distinto de SAM de las ingenuas actualizaciones de SAM.

Después de simplificar la regularización de SAM para incluir la regularización ℓ2 en los pesos de la última capa y las activaciones intermedias de la última capa oculta en el entrenamiento de red profunda utilizando SGD. Este objetivo de regularización se aplica a CIFAR10 con arquitectura ResNet18. Debido a problemas de inestabilidad con la normalización por lotes, los investigadores la reemplazan con normalización de capas para 1-SAM. Al comparar el rendimiento de SGD, 1-SAM, L-SAM, J-SAM y SGD regularizado, descubrieron que, si bien el SGD regularizado no iguala la precisión de la prueba de SAM, la brecha se reduce significativamente del 17% al 9% bajo el ruido de la etiqueta. Sin embargo, en escenarios libres de ruido, el SGD regularizado sólo mejora marginalmente, mientras que SAM mantiene una ventaja del 8% sobre el SGD. Esto sugiere que, si bien no explica completamente los beneficios de la generalización de SAM, una regularización similar en las capas finales es crucial para el rendimiento de SAM, especialmente en entornos ruidosos.

En conclusión, este trabajo tiene como objetivo proporcionar una perspectiva sólida sobre la efectividad de SAM al demostrar su capacidad para priorizar el aprendizaje de ejemplos limpios antes de instalar ejemplos ruidosos, particularmente en presencia de ruido en las etiquetas. En los modelos lineales, SAM aumenta explícitamente los gradientes desde puntos de baja pérdida, similar a los métodos existentes de robustez del ruido de etiquetas. En entornos no lineales, la regularización de las activaciones intermedias y los pesos de las capas finales de SAM mejora la robustez del ruido de las etiquetas, de forma similar a los métodos que regulan la norma logits. A pesar de sus similitudes, SAM sigue estando poco explorado en el dominio del ruido de etiquetas. No obstante, la simulación de aspectos de la regularización de la red jacobiana por parte de SAM puede preservar su rendimiento, lo que sugiere potencial para desarrollar métodos de robustez de ruido de etiquetas inspirados en los principios de SAM, aunque sin los costos de tiempo de ejecución adicionales de 1-SAM.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 41k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.