El entrenamiento de modelos de IA a gran escala, como transformadores y modelos de lenguaje, se ha convertido en un proceso indispensable pero muy exigente en IA. Con miles de millones de parámetros, estos modelos ofrecen capacidades innovadoras, pero tienen un costo elevado en términos de potencia computacional, memoria y consumo de energía. Por ejemplo, El GPT-3 de OpenAI comprende 175 mil millones de parámetros y requiere semanas de entrenamiento de GPU. Estos enormes requisitos limitan estas tecnologías a organizaciones con importantes recursos computacionales, lo que exacerba las preocupaciones sobre la eficiencia energética y el impacto ambiental. Abordar estos desafíos se ha vuelto fundamental para garantizar una mayor accesibilidad y sostenibilidad de los avances de la IA.
Las ineficiencias en el entrenamiento de modelos grandes se deben principalmente a su dependencia de matrices densas, que exigen una memoria y una potencia informática importantes. El soporte limitado para operaciones optimizadas de baja precisión o rango bajo en las GPU modernas agrava aún más estos requisitos. Si bien se han propuesto algunos métodos, como la factorización matricial y la reducción de rango heurístico, para aliviar estos problemas, su aplicabilidad en el mundo real está limitada. Por ejemplo, GaLore permite el entrenamiento en configuraciones de un solo lote, pero sufre una sobrecarga de tiempo de ejecución poco práctica. De manera similar, LTE, que adopta adaptadores de bajo rango, lucha con la convergencia en tareas a gran escala. La falta de un método que reduzca simultáneamente el uso de memoria, el costo computacional y el tiempo de capacitación sin comprometer el rendimiento ha creado una necesidad urgente de soluciones innovadoras.
Investigadores de la Universidad de Albany SUNY, la Universidad de California en Santa Bárbara, Amazon Alexa AI y Meta presentaron Computing-y METROemory-mimétodo de entrenamiento eficiente a través de Rank-Aoptimización del tensor adaptativo (CoMERA), un marco novedoso que combina la eficiencia de la memoria con la velocidad computacional a través de la compresión tensor adaptativa de rango. A diferencia de los métodos tradicionales que se centran únicamente en la compresión, CoMERA adopta un enfoque de optimización multiobjetivo para equilibrar la relación de compresión y la precisión del modelo. Utiliza incrustaciones tensorizadas y contracciones avanzadas de redes tensoras para optimizar la utilización de la GPU, lo que reduce la sobrecarga del tiempo de ejecución y mantiene un rendimiento sólido. El marco también presenta CUDA Graph para minimizar los retrasos en el lanzamiento del kernel durante las operaciones de GPU, un cuello de botella importante en los enfoques tradicionales de compresión tensorial.
La base de CoMERA se basa en representaciones tensoriales adaptativas, que permiten que las capas del modelo ajusten sus rangos dinámicamente en función de las limitaciones de recursos. Al modificar los rangos de los tensores, el marco logra la compresión sin comprometer la integridad de las operaciones de la red neuronal. Esta optimización dinámica se logra mediante un proceso de formación en dos etapas:
- Una primera etapa centrada en la convergencia estable
- Una etapa tardía que afina las clasificaciones para cumplir objetivos de compresión específicos
En un modelo de transformador de seis codificadores, CoMERA logró relaciones de compresión que van desde 43x en su etapa inicial hasta un impresionante 361x en sus optimizaciones de última etapa. Además, redujo el consumo de memoria 9 veces en comparación con GaLore, con un entrenamiento 2-3 veces más rápido por época.
Cuando se aplicó a modelos de transformadores entrenados en el conjunto de datos MNLI, CoMERA redujo el tamaño de los modelos de 256 MB a tan solo 3,2 MB, preservando al mismo tiempo la precisión. En sistemas de recomendación a gran escala como DLRM, CoMERA comprimió los modelos 99 veces y logró una reducción de 7 veces en el uso máximo de memoria. El marco también se destacó en el entrenamiento previo de CodeBERT, un modelo de lenguaje grande de dominio específico, donde obtuvo una relación de compresión general de 4,23 veces y demostró una aceleración de 2 veces durante ciertas fases de entrenamiento. Estos resultados subrayan su capacidad para manejar diversas tareas y arquitecturas, ampliando su aplicabilidad en todos los dominios.
Las conclusiones clave de esta investigación son las siguientes:
- CoMERA logró relaciones de compresión de hasta 361x para capas específicas y 99x para modelos completos, reduciendo drásticamente los requisitos de almacenamiento y memoria.
- El marco proporcionó tiempos de entrenamiento entre 2 y 3 veces más rápidos por época para transformadores y sistemas de recomendación, lo que ahorró tiempo y recursos computacionales.
- Utilizando representaciones tensorizadas y CUDA Graph, CoMERA redujo el consumo máximo de memoria 7 veces, lo que permitió el entrenamiento en GPU más pequeñas.
- El enfoque de CoMERA admite diversas arquitecturas, incluidos transformadores y modelos de lenguaje grandes, al tiempo que mantiene o mejora la precisión.
- Al reducir las demandas de energía y recursos de la formación, CoMERA contribuye a prácticas de IA más sostenibles y hace que los modelos de vanguardia sean accesibles a un público más amplio.
En conclusión, CoMERA aborda algunas de las barreras más importantes para la escalabilidad y accesibilidad de la IA al permitir un entrenamiento más rápido y eficiente en la memoria. Sus capacidades de optimización adaptativa y su compatibilidad con hardware moderno lo convierten en una opción atractiva para las organizaciones que buscan entrenar modelos grandes sin incurrir en costos prohibitivos. Los resultados de este estudio allanan el camino para una mayor exploración de optimizaciones basadas en tensores en dominios como la informática distribuida y los dispositivos de borde con recursos limitados.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.