Conozca LoftQ: Cuantización con reconocimiento de ajuste fino LoRA para modelos de lenguaje grandes

La introducción de modelos de lenguaje preentrenados (PLM) ha significado un cambio transformador en el campo del procesamiento del lenguaje natural. Han demostrado un dominio excepcional en la realización de una amplia gama de tareas lingüísticas, incluida la comprensión del lenguaje natural (NLU) y la generación del lenguaje natural (NLG). Estos modelos suelen incorporar millones o incluso miles de millones de parámetros, lo que genera importantes requisitos computacionales y de memoria. Sin embargo, las considerables necesidades computacionales y de memoria de estos modelos presentan desafíos importantes, como lo reconoce la comunidad investigadora.

En esto papel, Los autores presentan un nuevo marco de cuantificación conocido como LoRA-Fine-Tuning-aware Quantization (LoftQ). Este marco está diseñado específicamente para modelos previamente entrenados que requieren cuantificación y ajuste de LoRA. El marco combina activamente la aproximación de bajo rango y trabaja junto con la cuantificación para aproximar conjuntamente los pesos originales preentrenados de alta precisión.

La imagen de arriba demuestra el rendimiento de QLoRA con diferentes bits. Izquierda: inicialización QLoRA de LLAMA-2-13b en WikiText-2. Derecha: aplique QLoRA a LLAMA-2-13b en la tarea de modelado del lenguaje WikiText-2. Una menor perplejidad indica un mejor desempeño.

Métodos de cuantificación. Aplicamos dos métodos de cuantificación para demostrar que LoftQ es compatible con diferentes funciones de cuantificación:

• La cuantificación uniforme es un método de cuantificación clásico. Divide uniformemente un intervalo continuo en 2N categorías y almacena un valor absoluto máximo local para la descuantificación.

• NF4 y su variante de 2 bits NF2 son métodos de cuantificación utilizados en QLoRA. Suponen que los valores de alta precisión se extraen de una distribución gaussiana y asignan estos valores a ranuras discretas que tienen la misma probabilidad.

Realizamos cuantificación de 2 y 4 bits en todos los modelos, logrando relaciones de compresión del 25-30% y del 15-20% en los niveles de 4 y 2 bits, respectivamente. Todos los experimentos se realizan en GPU NVIDIA A100.

La evaluación de su marco de cuantificación se lleva a cabo mediante experimentos extensos en diversas tareas posteriores, incluidas NLU, respuesta a preguntas, resumen y NLG. Los resultados de estos experimentos demuestran que LoftQ supera consistentemente a QLoRA en todos los niveles de precisión. Por ejemplo, con la cuantificación de 4 bits, logran una mejora de 1,1 y 0,8 en Rouge-1 para XSum y CNN/DailyMail, respectivamente. A medida que el campo de la PNL continúa avanzando, se espera que nuevas innovaciones y optimizaciones ayuden a cerrar la brecha entre el inmenso potencial de los PLM y su implementación práctica, beneficiando a una amplia gama de aplicaciones y usuarios.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.