En el aprendizaje automático se están entrenando redes más grandes con parámetros cada vez mayores. Sin embargo, capacitar a dichas redes se ha vuelto prohibitivamente costoso. A pesar del éxito de este enfoque, es necesario comprender mejor por qué son necesarios los modelos sobreparametrizados. Los costos asociados con la capacitación de estos modelos continúan aumentando exponencialmente.
Un equipo de investigadores de la Universidad de Massachusetts Lowell, Eleuther AI y Amazon desarrollaron un método conocido como ReLoRA, que utiliza actualizaciones de bajo rango para entrenar redes de alto rango. ReLoRA logra una actualización de alto rango y ofrece un rendimiento similar al entrenamiento de redes neuronales convencionales.
Se han identificado leyes de escala, lo que demuestra una fuerte dependencia de la ley de potencia entre el tamaño de la red y el rendimiento en diferentes modalidades, lo que respalda la sobreparametrización y las redes neuronales que consumen muchos recursos. La hipótesis del billete de lotería sugiere que se puede minimizar la parametrización excesiva, proporcionando una perspectiva alternativa. Se han desarrollado métodos de ajuste fino de rango bajo, como LoRA y Compacter, para abordar las limitaciones de los enfoques de factorización matricial de rango bajo.
ReLoRA se aplica al entrenamiento de modelos de lenguaje transformador con hasta 1,3 mil millones de parámetros y demuestra un rendimiento comparable al entrenamiento regular de redes neuronales. El método ReLoRA aprovecha el rango de la propiedad de suma para entrenar una red de alto rango a través de múltiples actualizaciones de bajo rango. ReLoRA emplea un inicio en caliente de entrenamiento de rango completo antes de realizar la transición a ReLoRA y periódicamente fusiona sus parámetros con los parámetros principales de la red, realiza un reinicio del optimizador y un recalentamiento de la tasa de aprendizaje. En ReLoRA también se utilizan el optimizador Adam y un programador de coseno irregular.
ReLoRA tiene un rendimiento comparable al entrenamiento regular de redes neuronales en tareas ascendentes y descendentes. El método ahorra hasta 5,5 Gb de RAM por GPU y mejora la velocidad de entrenamiento entre un 9 y un 40 %, según el tamaño del modelo y la configuración del hardware. El análisis cualitativo del espectro de valores singulares muestra que ReLoRA exhibe una masa de distribución más alta entre 0,1 y 1,0, que recuerda al entrenamiento de rango completo, mientras que LoRA tiene en su mayoría cero valores distintos.
En conclusión, el estudio se puede resumir en los siguientes puntos:
- ReLoRA logra una actualización de alto rango realizando múltiples actualizaciones de bajo rango.
- Tiene una cantidad menor de valores singulares cercanos a cero en comparación con LoRA.
- ReLoRA es una técnica de entrenamiento eficiente en parámetros que utiliza actualizaciones de bajo rango para entrenar grandes redes neuronales con hasta 1,3 mil millones de parámetros.
- Ahorra una cantidad significativa de memoria de GPU de hasta 5,5 Gb por GPU y mejora la velocidad de entrenamiento entre un 9 y un 40 %, según el tamaño del modelo y la configuración del hardware.
- ReLoRA supera al enfoque de factorización matricial de bajo rango en el entrenamiento de modelos de transformadores de alto rendimiento.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.