La personalización de modelos de lenguajes grandes (LLM) presenta actualmente una importante compensación de ingeniería entre la flexibilidad del aprendizaje en contexto (ICL) y la eficiencia de la destilación de contexto (CD) o el ajuste fino supervisado (SFT). Sakana AI, con sede en Tokio, ha propuesto un nuevo enfoque para sortear estas limitaciones mediante la amortización de costos. En dos de sus artículos recientes, introdujeron Text-to-LoRA (T2L) y Doc-to-LoRA (D2L), hiperredes livianas que metaaprenden a generar matrices de adaptación de bajo rango (LoRA) en un solo paso hacia adelante.
El cuello de botella de la ingeniería: latencia versus memoria
Para los desarrolladores de IA, la principal limitación de la adaptación estándar de LLM es la sobrecarga computacional:
Aprendizaje en contexto (ICL): si bien es conveniente, ICL sufre costos de atención cuadráticos y un crecimiento lineal de la caché KV, lo que aumenta la latencia y el consumo de memoria a medida que las indicaciones se alargan. Destilación de contexto (CD): la CD transfiere información a los parámetros del modelo, pero la destilación por mensaje a menudo no es práctica debido a los altos costos de capacitación y la latencia de actualización. SFT: Requiere conjuntos de datos específicos de tareas y una costosa recapacitación si la información cambia.
Los métodos de Sakana AI amortizan estos costos pagando una tarifa única de metaentrenamiento. Una vez entrenada, la hiperred puede adaptar instantáneamente el LLM base a nuevas tareas o documentos sin retropropagación adicional.
Text-to-LoRA (T2L): Adaptación mediante lenguaje natural
Text-to-LoRA (T2L) es una hiperred diseñada para adaptar LLM sobre la marcha utilizando únicamente una descripción en lenguaje natural de una tarea.
Arquitectura y Formación
T2L utiliza un codificador de tareas para extraer representaciones vectoriales de descripciones de texto. Esta representación, combinada con incrustaciones de capas y módulos que se pueden aprender, se procesa a través de una serie de bloques MLP para generar las matrices de rango bajo A y B para el LLM objetivo.
El sistema se puede entrenar mediante dos esquemas principales:
Reconstrucción de LoRA: destilación de adaptadores LoRA existentes y previamente entrenados en la hiperred. Ajuste fino supervisado (SFT): optimización de la hiperred de un extremo a otro en conjuntos de datos multitarea.
La investigación indica que el T2L entrenado con SFT se generaliza mejor a tareas invisibles porque implícitamente aprende a agrupar funcionalidades relacionadas en el espacio de peso. En los puntos de referencia, T2L igualó o superó a los adaptadores de tareas específicas en tareas como GSM8K y Arc-Challenge, al tiempo que redujo los costos de adaptación en más de 4 veces en comparación con ICL de 3 disparos.
Doc-to-LoRA (D2L): internalización del contexto
Doc-to-LoRA (D2L) amplía este concepto a la internalización de documentos. Permite a un LLM responder consultas posteriores sobre un documento sin volver a consumir el contexto original, eliminando efectivamente el documento de la ventana de contexto activo.
Diseño basado en perceptores
D2L utiliza una arquitectura de atención cruzada estilo Perceiver. Asigna activaciones de tokens de longitud variable (Z) desde el LLM base a un adaptador LoRA de forma fija.
Para manejar documentos que exceden la duración del entrenamiento, D2L emplea un mecanismo de fragmentación. Los contextos largos se dividen en K fragmentos contiguos, cada uno de los cuales se procesa de forma independiente para producir adaptadores por fragmento. Luego, estos se concatenan a lo largo de la dimensión de rango, lo que permite a D2L generar LoRA de rango superior para entradas más largas sin cambiar la forma de salida de la hiperred.
Rendimiento y eficiencia de la memoria
En una tarea de recuperación de Needle-in-a-Haystack (NIAH), D2L mantuvo una precisión de disparo cero casi perfecta en longitudes de contexto que excedían la ventana nativa del modelo base en más de 4 veces.
Impacto en la memoria: para un documento de 128 000 tokens, un modelo base requiere más de 12 GB de VRAM para la caché KV. Los modelos D2L internalizados manejaron el mismo documento usando menos de 50 MB. Latencia de actualización: D2L internaliza la información en regímenes de menos de un segundo (<1 s), mientras que el CD tradicional puede tardar entre 40 y 100 segundos.
Transferencia intermodal
Un hallazgo importante en la investigación de D2L es la capacidad de realizar una internalización de información visual desde cero. Al utilizar un modelo de visión-lenguaje (VLM) como codificador de contexto, D2L mapeó activaciones visuales en parámetros de un LLM de solo texto. Esto permitió que el modelo de texto clasificara imágenes del conjunto de datos de Imagenette con una precisión del 75,03%, a pesar de nunca ver datos de imágenes durante su entrenamiento principal.
Conclusiones clave
Personalización amortizada a través de hiperredes: ambos métodos utilizan hiperredes livianas para metaaprender el proceso de adaptación, pagando un costo único de metaentrenamiento para permitir una generación instantánea de adaptadores LoRA de menos de segunda para nuevas tareas o documentos. Reducción significativa de memoria y latencia: Doc-to-LoRA internaliza el contexto en parámetros, lo que reduce el consumo de memoria caché KV de más de 12 GB a menos de 50 MB para documentos largos y reduce la latencia de actualización de minutos a menos de un segundo. Generalización efectiva de contexto largo: utilizando una arquitectura basada en Perceiver y un mecanismo de fragmentación, Doc-to-LoRA puede internalizar información en longitudes de secuencia de más de 4 veces la ventana de contexto nativa del LLM base con una precisión casi perfecta. Adaptación de tareas Zero-Shot: Text-to-LoRA puede generar adaptadores LoRA especializados para tareas completamente invisibles basándose únicamente en una descripción en lenguaje natural, igualando o superando el rendimiento de los adaptadores ‘oracle’ específicos de tareas. Transferencia de conocimiento intermodal: la arquitectura Doc-to-LoRA permite la internalización de información visual desde un modelo de visión-lenguaje (VLM) a un LLM de solo texto, lo que permite a este último clasificar imágenes con alta precisión sin haber visto datos de píxeles durante su entrenamiento primario.
Consulte Doc-to-Lora Paper, Code, Text-to-LoRA Paper, Code. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.