Sakana AI presenta Text-to-Lora (T2L): una hipernetwork que genera adaptadores LLM específicos de tarea (LORAS) basado en una descripción de texto de la tarea

Los modelos de transformadores han influido significativamente en cómo los sistemas de IA abordan las tareas en la comprensión del lenguaje natural, la traducción y el razonamiento. Estos modelos a gran escala, particularmente modelos de lenguaje (LLM), han crecido en tamaño y complejidad hasta el punto en que abarcan capacidades amplias en varios dominios. Sin embargo, la aplicación de estos modelos a tareas nuevas y especializadas sigue siendo una operación compleja. Cada nueva aplicación generalmente exige una cuidadosa selección del conjunto de datos, horas de ajuste fino y un alto grado de potencia computacional. Aunque estos modelos ofrecen una base sólida en el conocimiento, su rigidez en el manejo de nuevos dominios con datos mínimos sigue siendo una limitación central. A medida que los investigadores apuntan a acercar la IA a la adaptabilidad humana, el enfoque se ha cambiado hacia métodos más eficientes que permiten que dichos modelos modifiquen su comportamiento sin reestructurar cada parámetro.

El desafío de personalizar LLM para nuevas tareas

La dificultad central radica en adaptar modelos de base a aplicaciones únicas sin repetir ciclos de capacitación costosos e intensivos en el tiempo. La mayoría de las soluciones hoy dependen de la creación de nuevos adaptadores para cada tarea, que son componentes separados capacitados para dirigir el comportamiento del modelo. Estos adaptadores deben estar hechos desde cero para cada tarea, y cualquier beneficio aprendido de una aplicación a menudo no puede transferirse a otra. Este proceso de adaptación requiere mucho tiempo y carece de escalabilidad. Además, los modelos de ajuste en conjuntos de datos específicos generalmente requieren un alto nivel de precisión en las opciones de hiperparameter, y no encontrar la configuración correcta puede conducir a malos resultados. Incluso cuando la adaptación es exitosa, el resultado es a menudo una gran colección de componentes aislados específicos de tareas que no son fáciles de integrar o reutilizar.

En respuesta a estas limitaciones, los investigadores han adoptado una adaptación de bajo rango (LORA), una técnica que modifica solo un pequeño conjunto de parámetros en lugar de todo el modelo. Lora inyecta matrices de bajo rango en capas específicas de un LLM congelado, lo que permite que los pesos base permanezcan sin cambios al tiempo que permite la personalización específica de la tarea. Este método reduce el número de parámetros capacitables. Sin embargo, para cada tarea, un nuevo adaptador de Lora aún debe ser entrenado desde cero. Si bien es más eficiente que el ajuste completo, este método no permite una adaptación rápida y sobre la marcha. Los avances recientes han intentado comprimir aún más estos adaptadores o combinar múltiples adaptadores durante la inferencia; Sin embargo, aún dependen en gran medida de la capacitación previa y no pueden generar nuevos adaptadores dinámicamente.

Introducción de texto a lora: generación de adaptadores instantáneos a partir de descripciones de tareas

Investigadores de Sakana AI introdujeron Text-to-lora (T2L)diseñado para generar instantáneamente adaptadores LORA específicos de tareas a partir de descripciones textuales de la tarea de destino, en lugar de crear y capacitar nuevos adaptadores para cada tarea. T2L funciona como una hipernetwork capaz de producir pesos del adaptador en un solo pase hacia adelante. Aprende de una biblioteca de adaptadores Lora preexistentes que cubren varios dominios, incluidos GSM8K, Arc-Challenge, Boolq y otros. Una vez entrenado, T2L puede interpretar la descripción de una tarea y generar el adaptador requerido sin capacitación adicional. Esta capacidad no solo elimina la necesidad de generación de adaptadores manuales, sino que también permite que el sistema generalice a las tareas que nunca antes había encontrado.

La arquitectura T2L utiliza una combinación de incrustaciones específicas del módulo y específicas de la capa para guiar el proceso de generación. Se probaron tres variantes arquitectónicas: una versión grande con 55 millones de parámetros, un medio con 34 millones y un pequeño con solo 5 millones. A pesar de sus diferencias de tamaño, todos los modelos eran capaces de generar las matrices necesarias de bajo rango para la funcionalidad del adaptador. La capacitación utilizó el conjunto de datos de instrucciones súper naturales en 479 tareas, con cada tarea descrita en lenguaje natural y codificada en forma vectorial. Al fusionar estas descripciones con incrustaciones de módulos y capa aprendidas, T2L crea las matrices A y B de bajo rango necesarias para la funcionalidad del adaptador. Esto permite que un modelo reemplace cientos de loras hechas a mano, produciendo resultados consistentes con una huella computacional mucho más pequeña.

Rendimiento de referencia y escalabilidad de T2L

En puntos de referencia como ARC-Easy y GSM8K, T2L coincidieron o superó el rendimiento de las LORAS específicas de la tarea. Por ejemplo, la precisión de Arc-Easy usando T2L fue del 76.6%, coincidiendo con la precisión del mejor adaptador sintonizado manualmente. En Boolq, alcanzó el 89.9%, superando ligeramente el adaptador original. Incluso en puntos de referencia más difíciles como Piqa y Winogrande, donde el sobreajuste generalmente perjudica el rendimiento, T2L entregó mejores resultados que los adaptadores capacitados manualmente. Se cree que estas mejoras provienen de la compresión con pérdida inherente a la capacitación de hipernetwork, que actúa como una forma de regularización. Al aumentar el número de conjuntos de datos de capacitación de 16 a 479, el rendimiento en configuraciones de disparo cero mejoró sustancialmente, mostrando la capacidad de T2L para generalizarse con una exposición más amplia durante el entrenamiento.

Varias conclusiones clave de la investigación incluyen:

  • T2L permite la adaptación instantánea de LLM utilizando solo descripciones del lenguaje natural.
  • Admite la generalización de disparo cero a las tareas que no se ven durante el entrenamiento.
  • Se probaron tres variantes arquitectónicas de T2L con recuentos de parámetros de 55 m, 34 m y 5m.
  • Los puntos de referencia incluyen ARCE, Boolq, GSM8K, HellaSwag, Piqa, MBPP y más.
  • T2L logró precisiones de referencia del 76.6% (ARCE), 89.9% (Boolq) y 92.6% (Helaswag).
  • Coincidió o excedió las loras capacitadas manualmente en rendimiento en múltiples tareas.
  • Capacitado utilizando 479 tareas del conjunto de datos de instrucciones súper naturales.
  • T2L utiliza el modelo GTE-Large-En-V1.5 para generar incrustaciones de tareas.
  • Los adaptadores Lora producidos por T2L Target solo consulta y proyecciones de valor en bloques de atención, totalizando parámetros de 3,4 millones.
  • El rendimiento se mantuvo consistente incluso con una mayor pérdida de reconstrucción, mostrando resistencia a la compresión.

En conclusión, esta investigación destaca un gran paso adelante en la adaptación del modelo flexible y eficiente. En lugar de confiar en procedimientos repetitivos y pesados ​​de recursos, T2L utiliza el lenguaje natural en sí como un mecanismo de control, lo que permite que los modelos se especialicen en las descripciones de tareas simples. Esta capacidad reduce drásticamente el tiempo y el costo requeridos para adaptar LLM a nuevos dominios. Además, sugiere que mientras hay suficientes adaptadores anteriores disponibles para la capacitación, los modelos futuros podrían adaptarse en segundos a cualquier tarea descrita en inglés simple. El uso de HypernWorks para construir dinámicamente adaptadores también significa que se necesita menos almacenamiento para la especialización del modelo, lo que aumenta aún más la practicidad de este método en los entornos de producción.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.