Conozca CoMERA: un marco de compresión tensorial avanzado que redefine el entrenamiento de modelos de IA con velocidad y precisión

El entrenamiento de modelos de IA a gran escala, como transformadores y modelos de lenguaje, se ha convertido en un proceso indispensable pero muy exigente en IA. Con miles de millones de parámetros, estos modelos ofrecen capacidades innovadoras, pero tienen un costo elevado en términos de potencia computacional, memoria y consumo de energía. Por ejemplo, El GPT-3 de OpenAI comprende 175 mil millones de parámetros y requiere semanas de entrenamiento de GPU. Estos enormes requisitos limitan estas tecnologías a organizaciones con importantes recursos computacionales, lo que exacerba las preocupaciones sobre la eficiencia energética y el impacto ambiental. Abordar estos desafíos se ha vuelto fundamental para garantizar una mayor accesibilidad y sostenibilidad de los avances de la IA.

Las ineficiencias en el entrenamiento de modelos grandes se deben principalmente a su dependencia de matrices densas, que exigen una memoria y una potencia informática importantes. El soporte limitado para operaciones optimizadas de baja precisión o rango bajo en las GPU modernas agrava aún más estos requisitos. Si bien se han propuesto algunos métodos, como la factorización matricial y la reducción de rango heurístico, para aliviar estos problemas, su aplicabilidad en el mundo real está limitada. Por ejemplo, GaLore permite el entrenamiento en configuraciones de un solo lote, pero sufre una sobrecarga de tiempo de ejecución poco práctica. De manera similar, LTE, que adopta adaptadores de bajo rango, lucha con la convergencia en tareas a gran escala. La falta de un método que reduzca simultáneamente el uso de memoria, el costo computacional y el tiempo de capacitación sin comprometer el rendimiento ha creado una necesidad urgente de soluciones innovadoras.

Investigadores de la Universidad de Albany SUNY, la Universidad de California en Santa Bárbara, Amazon Alexa AI y Meta presentaron Computing-y METROemory-mimétodo de entrenamiento eficiente a través de Rank-Aoptimización del tensor adaptativo (CoMERA), un marco novedoso que combina la eficiencia de la memoria con la velocidad computacional a través de la compresión tensor adaptativa de rango. A diferencia de los métodos tradicionales que se centran únicamente en la compresión, CoMERA adopta un enfoque de optimización multiobjetivo para equilibrar la relación de compresión y la precisión del modelo. Utiliza incrustaciones tensorizadas y contracciones avanzadas de redes tensoras para optimizar la utilización de la GPU, lo que reduce la sobrecarga del tiempo de ejecución y mantiene un rendimiento sólido. El marco también presenta CUDA Graph para minimizar los retrasos en el lanzamiento del kernel durante las operaciones de GPU, un cuello de botella importante en los enfoques tradicionales de compresión tensorial.

La base de CoMERA se basa en representaciones tensoriales adaptativas, que permiten que las capas del modelo ajusten sus rangos dinámicamente en función de las limitaciones de recursos. Al modificar los rangos de los tensores, el marco logra la compresión sin comprometer la integridad de las operaciones de la red neuronal. Esta optimización dinámica se logra mediante un proceso de formación en dos etapas:

Una primera etapa centrada en la convergencia estable
Una etapa tardía que afina las clasificaciones para cumplir objetivos de compresión específicos

En un modelo de transformador de seis codificadores, CoMERA logró relaciones de compresión que van desde 43x en su etapa inicial hasta un impresionante 361x en sus optimizaciones de última etapa. Además, redujo el consumo de memoria 9 veces en comparación con GaLore, con un entrenamiento 2-3 veces más rápido por época.

Cuando se aplicó a modelos de transformadores entrenados en el conjunto de datos MNLI, CoMERA redujo el tamaño de los modelos de 256 MB a tan solo 3,2 MB, preservando al mismo tiempo la precisión. En sistemas de recomendación a gran escala como DLRM, CoMERA comprimió los modelos 99 veces y logró una reducción de 7 veces en el uso máximo de memoria. El marco también se destacó en el entrenamiento previo de CodeBERT, un modelo de lenguaje grande de dominio específico, donde obtuvo una relación de compresión general de 4,23 veces y demostró una aceleración de 2 veces durante ciertas fases de entrenamiento. Estos resultados subrayan su capacidad para manejar diversas tareas y arquitecturas, ampliando su aplicabilidad en todos los dominios.

Las conclusiones clave de esta investigación son las siguientes:

CoMERA logró relaciones de compresión de hasta 361x para capas específicas y 99x para modelos completos, reduciendo drásticamente los requisitos de almacenamiento y memoria.
El marco proporcionó tiempos de entrenamiento entre 2 y 3 veces más rápidos por época para transformadores y sistemas de recomendación, lo que ahorró tiempo y recursos computacionales.
Utilizando representaciones tensorizadas y CUDA Graph, CoMERA redujo el consumo máximo de memoria 7 veces, lo que permitió el entrenamiento en GPU más pequeñas.
El enfoque de CoMERA admite diversas arquitecturas, incluidos transformadores y modelos de lenguaje grandes, al tiempo que mantiene o mejora la precisión.
Al reducir las demandas de energía y recursos de la formación, CoMERA contribuye a prácticas de IA más sostenibles y hace que los modelos de vanguardia sean accesibles a un público más amplio.

En conclusión, CoMERA aborda algunas de las barreras más importantes para la escalabilidad y accesibilidad de la IA al permitir un entrenamiento más rápido y eficiente en la memoria. Sus capacidades de optimización adaptativa y su compatibilidad con hardware moderno lo convierten en una opción atractiva para las organizaciones que buscan entrenar modelos grandes sin incurrir en costos prohibitivos. Los resultados de este estudio allanan el camino para una mayor exploración de optimizaciones basadas en tensores en dominios como la informática distribuida y los dispositivos de borde con recursos limitados.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Conozca CoMERA: un marco de compresión tensorial avanzado que redefine el entrenamiento de modelos de IA con velocidad y precisión

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

Cree un flujo de trabajo de IA con múltiples agentes para modelado de redes biológicas, interacciones de proteínas, metabolismo y simulación de señalización celular

Cómo un algoritmo de cuantificación de 2021 supera silenciosamente a su sucesor de 2026

You missed

“El sector de la producción cinematográfica española tiene un gran legado

Unidad Bethlehem Kudumba: Nivin Pauly confirma que la comedia romántica se estrenará en Onam 2026, chocando con Khalifa y I’m Game

Podcast de esta semana en el espacio: Episodio 208 — Lander, Lander, ¿quién tiene un Lander?

¿Excavar en la arena en España? Podría dar lugar a una multa de 60.000 euros « Euro Weekly News