Screenshot 2024 06 06 At 8.46.26 Am.png

Las redes neuronales profundas (DNN) han logrado un éxito notable en varios campos, incluida la visión por computadora, el procesamiento del lenguaje natural y el reconocimiento de voz. Este éxito se atribuye en gran medida a optimizadores de primer orden como el descenso de gradiente estocástico con impulso (SGDM) y AdamW. Sin embargo, estos métodos enfrentan desafíos a la hora de entrenar modelos a gran escala de manera eficiente. Los optimizadores de segundo orden, como K-FAC, Shampoo, AdaBK y Sophia, demuestran propiedades de convergencia superiores, pero a menudo incurren en costos computacionales y de memoria significativos, lo que dificulta su adopción generalizada para entrenar modelos grandes con presupuestos de memoria limitados.

Se han explorado dos enfoques principales para reducir el consumo de memoria de los estados del optimizador: factorización y cuantificación. La factorización utiliza una aproximación de rango bajo para representar los estados del optimizador, una estrategia que se aplica tanto a los optimizadores de primer orden como a los de segundo orden. En una línea de trabajo distinta, las técnicas de cuantificación utilizan representaciones de bits bajos para comprimir los estados del optimizador de 32 bits. Si bien la cuantificación se ha aplicado con éxito a optimizadores de primer orden, adaptarla a optimizadores de segundo orden plantea un desafío mayor debido a las operaciones matriciales involucradas en estos métodos.

Investigadores de la Universidad Normal de Beijing y la Universidad de Gestión de Singapur presentan el primer optimizador de segundo orden de 4 bits, tomando Shampoo como ejemplo, manteniendo un rendimiento comparable al de su contraparte de 32 bits. La contribución clave es cuantificar la matriz de vector propio del preacondicionador en Shampoo de 4 bits en lugar de cuantificar directamente el preacondicionador en sí. Este enfoque preserva los pequeños valores singulares del precondicionador, que son cruciales para calcular con precisión la raíz cuarta inversa, evitando así la degradación del rendimiento. Además, calcular la raíz cuarta inversa a partir de la matriz de vector propio cuantificada es sencillo, lo que garantiza que no aumente el tiempo del reloj de pared. Se proponen dos técnicas para mejorar el rendimiento: Ortonormalización de Björck rectificar la ortogonalidad de la matriz de vector propio cuantificada, y cuantización cuadrada lineal superando la cuantificación dinámica del árbol para estados optimizadores de segundo orden.

La idea clave es cuantificar la matriz de vector propio U del precondicionador A=UΛUT utilizando un cuantificador Q, en lugar de cuantificar A directamente. Esto preserva la matriz de valores singulares Λ, que es crucial para calcular con precisión la potencia de la matriz A^(-1/4) mediante descomposiciones matriciales como SVD. La ortonormalización de Björck se aplica para rectificar la pérdida de ortogonalidad en los vectores propios cuantificados. Se utiliza la cuantificación cuadrada lineal en lugar de la cuantificación de árbol dinámico para obtener un mejor rendimiento de la cuantificación de 4 bits. La actualización del precondicionador utiliza los vectores propios cuantificados V y los valores singulares no cuantificados Λ para aproximar A≈VΛVT. La cuarta raíz inversa A^(-1/4) se aproxima cuantizándola para obtener sus vectores propios cuantificados y reconstruyendo utilizando los vectores propios cuantificados y las entradas diagonales. Una mayor ortogonalización permite un cálculo preciso de las potencias matriciales. Como para s arbitrarias.

Al realizar una experimentación exhaustiva, los investigadores demuestran la superioridad del Shampoo de 4 bits propuesto sobre optimizadores de primer orden como AdamW. Si bien los métodos de primer orden requieren ejecutar entre 1,2 y 1,5 veces más épocas, lo que da como resultado tiempos de reloj de pared más prolongados, aun así logran precisiones de prueba más bajas en comparación con los optimizadores de segundo orden. Por el contrario, Shampoo de 4 bits logra precisiones de prueba comparables a las de su homólogo de 32 bits, con diferencias que van del -0,7% al 0,5%. Los aumentos en el tiempo de reloj de pared para Shampoo de 4 bits oscilan entre -0,2 % y 9,5 % en comparación con Shampoo de 32 bits, al tiempo que proporcionan ahorros de memoria del 4,5 % al 41 %. Sorprendentemente, los costos de memoria de Shampoo de 4 bits son sólo entre un 0,8% y un 12,7% más altos que los de los optimizadores de primer orden, lo que marca un avance significativo al permitir el uso de métodos de segundo orden.

Esta investigación presenta la Champú de 4 bits, diseñado para el entrenamiento de DNN con memoria eficiente. Un hallazgo clave es que cuantificar la matriz de vector propio del preacondicionador, en lugar del preacondicionador en sí, es crucial para minimizar los errores de cuantificación en su cálculo de cuarta raíz inversa con una precisión de 4 bits. Esto se debe a la sensibilidad de los pequeños valores singulares, que se conservan cuantizando únicamente los vectores propios. Para mejorar aún más el rendimiento, se introducen técnicas de mapeo de rectificación ortogonal y cuantificación cuadrada lineal. En varias tareas de clasificación de imágenes que involucran diferentes arquitecturas DNN, Shampoo de 4 bits logra un rendimiento a la par con su contraparte de 32 bits, al tiempo que ofrece importantes ahorros de memoria. Este trabajo allana el camino para permitir el uso generalizado de optimizadores de segundo orden eficientes en memoria en el entrenamiento de DNN a gran escala.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.