Los investigadores de IA de NVIDIA proponen Tied-Lora: un novedoso enfoque de inteligencia artificial que tiene como objetivo mejorar la eficiencia de los parámetros de los métodos de adaptación de bajo rango (LoRA)

Un grupo de investigadores de Nvidia ha desarrollado una nueva técnica llamada Tied-LoRA, cuyo objetivo es mejorar la eficiencia de los parámetros del método de Adaptación de rango bajo (LoRA). El curso utiliza sujeción de peso y entrenamiento selectivo para encontrar el equilibrio óptimo entre el rendimiento y los parámetros entrenables. Los investigadores realizaron experimentos con diferentes tareas y modelos de lenguaje base y descubrieron que existen compensaciones entre eficiencia y rendimiento.

Los avances recientes en técnicas de ajuste fino eficientes en parámetros incluyen LoRA, que reduce los parámetros entrenables mediante aproximaciones matriciales de bajo rango. AdaLoRA es una extensión de LoRA que introduce un ajuste de rango dinámico y combina el ajuste del adaptador con LoRA. Otra técnica es VeRA, propuesta por Kopiczko, que reduce los parámetros mediante matrices congeladas y vectores de escala entrenables. QLoRA utiliza modelos base cuantificados para lograr LoRA con memoria eficiente. Este estudio aplica la vinculación de pesos a matrices de pesos de rango bajo, lo que mejora aún más la eficiencia de los parámetros.

Al abordar el gasto computacional de ajustar los LLM para tareas posteriores, Tied-LoRA es un enfoque novedoso que combina la vinculación de peso y el entrenamiento selectivo para mejorar la eficiencia de los parámetros de LoRA. Explora diferentes combinaciones de entrenamiento/congelación de parámetros y vinculación de peso a través de experimentos sistemáticos en diversos estudios y modelos de lenguaje base. Los investigadores identifican una configuración Tied-LoRA específica que logra un rendimiento comparable utilizando solo el 13% de los parámetros en comparación con el método LoRA estándar.

Tied-LoRA es un método que mejora la eficiencia de los parámetros del enfoque LoRA al combinar la atadura de peso y el entrenamiento selectivo. Implica aplicar vinculación de peso a matrices de bajo rango en LoRA, compartiendo las mismas consecuencias entre capas en el modelo de lenguaje base, reduciendo así la cantidad de parámetros entrenables. Explora varias combinaciones de entrenamiento/congelación de parámetros y ligadura de peso para lograr un equilibrio óptimo entre el rendimiento y los parámetros entrenables. Las configuraciones Tied-LoRA propuestas se evalúan en diversas tareas, lo que demuestra eficiencia en todas las configuraciones de datos, incluida la traducción y el razonamiento matemático.

En experimentos con diversas tareas y dos modelos de lenguaje base, diferentes configuraciones de Tied-LoRA demostraron compensaciones entre eficiencia y rendimiento. Una configuración Tied-LoRA específica, vBuA, superó a otras y logró un rendimiento comparable. vBuA fue identificado como la opción óptima, manteniendo el rendimiento y reduciendo los parámetros en un 87%. Las evaluaciones de tareas como respuesta extractiva a preguntas, resúmenes y razonamiento matemático mostraron la capacidad de Tied-LoRA para mejorar la eficiencia de los parámetros y al mismo tiempo preservar significativamente el rendimiento competitivo.

Después de realizar experimentos en varias tareas, se descubrió que Tied-LoRA es un paradigma que mejora la eficiencia de los parámetros del método LoRA mediante la utilización de sujeción de peso y entrenamiento selectivo. Los resultados sugieren que Tied-LoRA puede reemplazar funciones como NLI de sentido común, control de calidad extractivo y resumen. Además, ofrece una eficiencia de parámetros mejorada sin comprometer el rendimiento, utilizando solo el 13 % de los parámetros de LoRA estándar. Sin embargo, es importante discutir las limitaciones y comparaciones con otros métodos de eficiencia de parámetros para identificar áreas potenciales para exploración futura.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.