Un equipo de investigadores de UC Berkeley y Stanford ha desarrollado un nuevo método de ajuste eficiente de parámetros llamado Adaptación de bajo rango (LoRA) para implementar LLM. S-LoRA fue diseñado para permitir la implementación eficiente de muchos adaptadores LoRA. S-LoRA permite ejecutar miles de adaptadores en una sola GPU o en varias GPU con una sobrecarga mínima. El método introduce paginación unificada para optimizar el uso de la memoria de la GPU, utilizando un novedoso paralelismo tensorial y núcleos CUDA personalizados para el procesamiento por lotes heterogéneo. Estas técnicas reducen significativamente los requisitos computacionales para implementar LLM en aplicaciones del mundo real.
LoRA es una técnica de ajuste altamente eficiente para personalizar LLM previamente capacitados para nuevas tareas, reduciendo drásticamente los parámetros entrenables y manteniendo una alta precisión. LoRA goza de una amplia aceptación, lo que ha dado lugar a la creación de innumerables adaptadores LoRA para LLM y modelos de difusión. En las aplicaciones actuales, los LLM son omnipresentes y atienden a diversos dominios y tareas.
Las aplicaciones modernas utilizan ampliamente los LLM, y el método de preentrenamiento y luego ajuste ha dado como resultado la creación de múltiples versiones ajustadas de un único LLM base, cada una personalizada para tareas o dominios específicos. LoRA es una técnica de ajuste eficiente de parámetros que adapta los LLM previamente capacitados para nuevas tareas, lo que reduce significativamente la cantidad de parámetros entrenables y mantiene una alta precisión.
S-LoRA aprovecha LoRA para ajustar de manera eficiente un modelo base para una amplia gama de tareas, generando una colección sustancial de adaptadores LoRA a partir de un solo modelo. Introduce la paginación unificada, que optimiza el uso de la memoria de la GPU mediante la gestión de pesos de adaptadores dinámicos y tensores de caché KV dentro de un grupo de memoria unificado. S-LoRA permite el servicio de miles de adaptadores LoRA con una sobrecarga mínima. El enfoque puede mejorar cuatro veces el rendimiento y aumentar significativamente la cantidad de adaptadores compatibles en comparación con bibliotecas líderes como HuggingFace PEFT y vLLM.
S-LoRA maneja eficientemente 2000 adaptadores simultáneamente con una sobrecarga mínima, manteniendo bajos costos computacionales. Supera al paquete vLLM hasta 4 veces para unos pocos adaptadores y hasta 30 veces a PEFT, al tiempo que admite un número de adaptadores significativamente mayor. S-LoRA supera a sus variaciones, S-LoRA-bmm y S-LoRA-no-unifymem, en rendimiento y latencia, destacando la eficacia de la agrupación de memoria y los núcleos personalizados. La escalabilidad del sistema está limitada principalmente por la memoria principal disponible, lo que demuestra un rendimiento sólido para cargas de trabajo del mundo real. Las impresionantes capacidades de S-LoRA lo convierten en una solución poderosa para adaptar modelos de lenguaje grandes a diversas tareas.
La investigación tiene como objetivo mejorar el rendimiento mediante la investigación de vías de optimización como la cuantificación, la dispersión y el refinamiento de las arquitecturas de modelos. Explora la implementación de técnicas de computación descompuesta tanto para el modelo base como para los adaptadores, junto con el desarrollo de núcleos CUDA personalizados para un soporte mejorado. El enfoque también se extiende a abordar características autorregresivas y adaptadores eficientes en parámetros dentro del servicio LLM, buscando identificar y cerrar brechas de optimización en los sistemas de servicio de modelos actuales.
En conclusión, S-LoRA ha introducido paginación unificada para combatir la fragmentación de la memoria, lo que lleva a mayores tamaños de lotes y una mejor escalabilidad en el servicio. El estudio presenta una solución de servicio LoRA escalable, que aborda el desafío previamente inexplorado de servir variantes ajustadas a escala. El trabajo optimiza el servicio LoRA a través de técnicas algorítmicas como cuantificación, dispersión y mejoras en la arquitectura del modelo, complementando las mejoras a nivel del sistema.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.