Investigadores del MIT y CUHK proponen LongLoRA (adaptación larga y de rango bajo), un enfoque de IA de ajuste eficiente para modelos de lenguaje grande (LLM) de contexto prolongado

La introducción de modelos de lenguaje grande (LLM) ha traído un nivel significativo de avance en el campo de Inteligencia artificial. Basados ​​en los conceptos de procesamiento del lenguaje natural (NLP), comprensión del lenguaje natural (NLU) y generación del lenguaje natural (NLG), los LLM se han apoderado del mundo con sus increíbles capacidades. Los modelos conocidos, como LLaMA y LLaMA2, han sido herramientas muy efectivas para comprender y producir lenguaje natural.

Sin embargo, han establecido restricciones, como un tamaño de contexto máximo de 2048 tokens para LLaMA y 4096 tokens para LLaMA2, respectivamente. Debido a esta restricción, tienen dificultades para ejecutar tareas que requieren digerir documentos extensos o consultas extensas. Entrenar o perfeccionar LLM con secuencias más largas es un método para ampliar la ventana de contexto, pero esto presenta dificultades informáticas y puede resultar prohibitivamente costoso en recursos.

La adaptación de rango bajo (LoRA) es un método sencillo para ampliar la ventana de contexto. LoRA utiliza matrices de bajo rango, que son computacionalmente eficientes y limitan el número de parámetros entrenables, para alterar las capas de proyección lineal en bloques de autoatención. Sin embargo, según estudios empíricos, el entrenamiento de modelos de contexto largo con una simple adaptación de bajo rango no parece ser muy efectivo. Debido al típico mecanismo de autoatención, produce niveles significativos de confusión para expansiones de contexto extendidas y pierde efectividad a medida que aumenta el tamaño del contexto.

Para superar las limitaciones, un equipo de investigadores ha introducido LongLoRA, un enfoque de ajuste eficiente para ampliar los tamaños de contexto de modelos de lenguaje grandes previamente entrenados sin incurrir en costos computacionales excesivos. LongLoRA se ha desarrollado para aumentar eficazmente la ventana de contexto de LLM previamente capacitados como LLaMA2. Acelera el proceso de ampliación del contexto de los LLM de dos maneras importantes.

Primero, LongLoRA hace posible una extensión efectiva del contexto durante el ajuste fino mediante el uso de atención por turnos cortos (S2-Attn). Si bien todavía se requiere una densa atención global para que los LLM se desempeñen bien durante la inferencia, el proceso de ajuste se puede llevar a cabo de manera efectiva y rápida empleando escasa atención local. En comparación con el ajuste fino con técnicas de atención convencionales, S2-Attn permite la extensión del contexto y genera importantes ahorros computacionales, ya que se puede integrar fácilmente y es una parte opcional de la inferencia porque solo requiere dos líneas de código para implementar durante el entrenamiento.

En segundo lugar, LongLoRA reconsidera el procedimiento de ajuste fino con énfasis en técnicas de expansión de contexto efectivas para parámetros. El equipo descubrió que LoRA funciona admirablemente para la extensión del contexto, siempre que el modelo tenga capas de incrustación y normalización entrenables. Esta comprensión es clave para ampliar con éxito el contexto sin aumentar sustancialmente la carga informática.

Con modelos LLaMA2 que varían en tamaño desde 7B/13B hasta 70B, LongLoRA ha presentado resultados empíricos notables para una variedad de tareas. En una sola computadora con GPU 8 x A100, el método aumenta el contexto de estos modelos de 4k tokens a 100k tokens para LLaMA2 7B o hasta 32k tokens para LLaMA2 70B. Realiza este contexto ampliado manteniendo las estructuras del modelo original, haciéndolo compatible con métodos y herramientas ya en uso como FlashAttention-2.

También se ha desarrollado un conjunto de datos llamado LongQA para un ajuste fino supervisado con el fin de ayudar en el uso real de LongLoRA. En este conjunto de datos se pueden encontrar más de 3.000 pares de preguntas y respuestas con contextos extensos. La disponibilidad de este conjunto de datos amplía la utilidad de LongLoRA para académicos y profesionales que buscan ampliar las capacidades de los LLM.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.