El campo de investigación se centra en la optimización de algoritmos para el entrenamiento de grandes modelos lingüísticos (LLM), que son esenciales para comprender y generar el lenguaje humano. Estos modelos son fundamentales para diversas aplicaciones, incluido el procesamiento del lenguaje natural y la inteligencia artificial. El entrenamiento de LLM requiere importantes recursos computacionales y de memoria, lo que hace que la optimización de estos procesos sea un área de alta prioridad para los investigadores.
El problema principal que aborda este artículo es la alta demanda de memoria de los algoritmos de optimización utilizados en el entrenamiento de modelos de lenguaje de gran tamaño. En concreto, el optimizador Adam, un estándar en el campo debido a su rendimiento superior, requiere una memoria sustancial para almacenar estados del optimizador, como valores de momento de primer y segundo orden. Esta demanda de memoria duplica los recursos necesarios en comparación con el tamaño del modelo, lo que crea una carga significativa. Como resultado, el entrenamiento de modelos de gran tamaño se vuelve costoso y menos accesible para los investigadores con recursos limitados. Los métodos alternativos como Adafactor intentan reducir el uso de memoria, pero a menudo comprometen el rendimiento, lo que pone de relieve la necesidad de soluciones más eficientes.
El optimizador Adam se utiliza ampliamente para entrenar LLM debido a su capacidad de manejar varios tamaños de modelos y tareas de manera efectiva. Sin embargo, el requisito de Adam de una memoria extensa para almacenar sus estados de optimizador, en particular los momentos de primer y segundo orden, plantea un desafío considerable. Por ejemplo, entrenar un modelo de 7 mil millones de parámetros con Adam requiere aproximadamente 56 GB por tarjeta solo para estos estados, lo que totaliza 86 GB cuando se incluyen los gradientes. Esto hace que el entrenamiento sea prohibitivamente costoso, incluso con tarjetas gráficas avanzadas como la A100-80GB. Además, se utilizan la descarga de CPU y la fragmentación para administrar este alto requisito de memoria, lo que aumenta la latencia y ralentiza el proceso de entrenamiento.
Investigadores de la Universidad China de Hong Kong, Shenzhen, el Instituto de Investigación de Big Data de Shenzhen, la Universidad de Duke y la Universidad de Stanford presentaron Adán-miniun optimizador diseñado para lograr un rendimiento similar o mejor que Adam, al tiempo que reduce el uso de memoria entre un 45% y un 50%. Adam-mini logra esto al dividir los parámetros del modelo en bloques según la estructura hessiana de los transformadores. A cada bloque se le asigna una única tasa de aprendizaje de alta calidad, lo que reduce significativamente la cantidad de tasas de aprendizaje de miles de millones a una cantidad manejable. Este enfoque permite que Adam-mini mantenga o incluso mejore el rendimiento con una fracción de la memoria requerida por Adam.
Adam-mini funciona aprovechando la estructura diagonal de bloques cercanos de las hessianas de los transformadores, dividiendo los parámetros en bloques como las capas de consulta, clave, valor y MLP. Para cada bloque, se calcula una única tasa de aprendizaje efectiva utilizando el promedio de los valores de momento de segundo orden de Adam en ese bloque. Este método reduce la huella de memoria y simplifica el proceso de asignación de la tasa de aprendizaje. Por ejemplo, durante el preentrenamiento de Llama2-7B en dos GPU A800-80GB, Adam-mini logró un rendimiento de 5572,19 tokens por segundo, en comparación con los 3725,59 tokens por segundo con AdamW, lo que representa un aumento del 49,6%. Esta eficiencia da como resultado una reducción del 33% en el tiempo de reloj para procesar la misma cantidad de tokens.
Los investigadores validaron el rendimiento de Adam-mini en varios modelos de lenguaje que van desde 125 millones hasta 7 mil millones de parámetros, incluidos el preentrenamiento, el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF). El optimizador demostró un rendimiento igual o superior al de AdamW, con mejoras notables en la eficiencia de la memoria y la velocidad de entrenamiento. Por ejemplo, en las tareas de ajuste fino supervisado y aprendizaje de refuerzo, Adam-mini superó constantemente a AdamW, logrando puntuaciones de evaluación más altas y una convergencia más rápida.

En conclusión, el optimizador Adam-mini aborda las ineficiencias de memoria significativas de los métodos de optimización tradicionales como Adam al introducir una nueva estrategia de partición basada en la estructura hessiana de los modelos. Este enfoque innovador genera ahorros sustanciales de memoria y mejora la eficiencia de entrenamiento, lo que lo convierte en una herramienta valiosa para los investigadores que trabajan con modelos de lenguaje a gran escala. Al reducir el uso de memoria hasta en un 50 % y aumentar el rendimiento en casi un 50 %, Adam-mini no solo mejora la viabilidad del entrenamiento de modelos grandes, sino que también fomenta una participación más amplia de investigadores con recursos de GPU limitados.
Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Subreddit de más de 45 000 millones de usuarios
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.