La pila multi-LoRA concurrente de Trajectory informa una ganancia de rendimiento del experimento de 2,81 veces respecto a RL de un solo inquilino, con todo el código en el repositorio NovaSky-AI/SkyRL GitHub.
La mayoría de los modelos de lenguaje mejoran en saltos discontinuos. Un equipo recopila datos, entrena y envía una nueva versión. Esto lleva meses y produce comportamientos notables o catastróficos para los usuarios. Trajectory quiere reemplazar ese ciclo con un aprendizaje continuo.
El equipo de Trajectory publicó un informe de campo que describe cómo. Creó una plataforma de capacitación simultánea de múltiples LoRA para cargas de trabajo de aprendizaje continuo. El trabajo se realizó con UC Berkeley Sky Lab y Anyscale. Todo el código de capacitación es de código abierto en el repositorio NovaSky-AI/SkyRL.
El resultado es una mejora de 2,81 veces en el rendimiento del experimento de un extremo a otro. La comparación se realiza con un marco de capacitación de inquilino único. Trayectoria no informa ninguna regresión en ninguna recompensa de entrenamiento.
¿Qué es realmente el entrenamiento Multi-LoRA?
El aprendizaje continuo requiere que los modelos se actualicen a partir de comentarios en vivo e interacciones de producción. Un agente codificador podría aprender patrones de ingeniería a medida que los desarrolladores corrigen su trabajo. Un agente de soporte podría resolver tickets difíciles mientras los operadores intervienen en casos difíciles.
La mayor parte de la infraestructura de formación todavía supone un ciclo de vida lineal. Los equipos asignan GPU, inicializan el modelo, ejecutan un trabajo y luego reducen el funcionamiento. El aprendizaje continuo revisa esa relación. Cuando las interacciones de producción se convierten en insumos de capacitación, la capacitación se convierte en parte de un sistema vivo.
El entrenamiento RL moderno se reduce a tres primitivas centrales. El Sampler genera trayectorias a partir del modelo de política actual. El Entrenador calcula los gradientes y actualiza las ponderaciones de las políticas. La sincronización de parámetros transmite pesos actualizados a los trabajadores de inferencia.
Trajectory llama a su enfoque Entrenamiento Continuo Multi-LoRA, o C-LoRA. Cada experimento se asigna a un adaptador LoRA dedicado en un motor cálido y multiinquilino.
Los problemas a los que se dirige
El equipo de Trajectory identifica cuatro ineficiencias en las pilas tradicionales:
(1) Los arranques en frío son lentos: cada trabajo en serie recarga los puntos de control, inicializa el tiempo de ejecución distribuido y calienta los motores de inferencia. Para modelos grandes, este paso por sí solo puede exceder los 30 minutos por ejecución.
(2) RL consume mucha memoria: los modelos Frontier a menudo superan los 100B de parámetros. Qwen3.5-397B puede requerir hasta ocho nodos H200 para caber en la memoria. LoRA reduce el uso de memoria en un orden de magnitud. Congela el modelo base y entrena sólo pequeños pesos de adaptador.
(3) Las pilas tradicionales son de un solo inquilino: ejecutan un experimento a la vez. Multi-LoRA asigna cada experimento a un adaptador, multiplexando el rendimiento por un factor de N.
(4) La utilización del trabajo es baja: los entrenadores y los motores de inferencia se paran mientras se esperan unos a otros. La carga Multi-LoRA equilibra los trabajos para llenar la capacidad inactiva.
Dentro de la Arquitectura
La mayoría de las mejoras en el rendimiento provienen de la inferencia. En vLLM, todos los adaptadores se cargan en caliente en la memoria de la GPU. Luego, los pasos de decodificación pueden mezclar tokens de diferentes adaptadores en el mismo lote. El habilitador clave es el núcleo de decodificación SGMV. Fusiona el trabajo de vector de matriz por adaptador en un lanzamiento de GPU por paso de decodificación.
Después de cada paso de optimización, los pesos LoRA actualizados se cargan in situ en el motor de inferencia. El programador no se congela, por lo que otros inquilinos siguen decodificando.
El entrenamiento funciona de manera diferente. Un adaptador LoRA activo se entrena en la GPU. El resto se encuentra en la memoria de la CPU fijada. El estado de cada inquilino vive en un AdapterStore. Contiene parámetros LoRA, pesos maestros FP32, momentos optimizadores y buffers de gradiente.
El motor intercambia el estado de un inquilino en la GPU, ejecuta un único pase forward_backward y luego lo vuelve a intercambiar. Esta ruta de formación sigue siendo de un solo adaptador. Las ganancias de simultaneidad de inferencia aún no se aplican al entrenamiento.
Los números
Trayectoria probada en un único nodo H200 con Qwen3-4B-Instruct-2507. Ejecutó Sync RL en GSM8K en un entorno agente. El equipo de Trajectory reformuló GSM8K como una tarea de aprendizaje sobre el uso de herramientas. El modelo decide cuándo llamar a una Calculadora y a una herramienta de Respuesta final. La recompensa es 1.0 solo cuando se llama a la Respuesta final con la respuesta correcta.
La política comienza con una precisión cercana al 40 % en el paso 0. Con el algoritmo de aprendizaje correcto, supera el 90 % en el paso 9.
El equipo de Trajectory aumentó a ocho ejecuciones simultáneas de múltiples LoRA. El tiempo del experimento final alcanzó 5433 s en N = 8, una aceleración de 2,81 ×. Ocho experimentos simultáneos finalizaron antes de tres ejecuciones en serie consecutivas. El tiempo medio del experimento también mejoró, alcanzando un máximo de N=4 con una aceleración de 1,88×. Cada nivel de simultaneidad alcanzó una recompensa_accuracy superior al 90 % en el paso 9.
Las compensaciones
Mayor rendimiento cuesta latencia por paso. A medida que N crece, el tiempo del primer experimento y el tiempo del paso se degradan. En N=8, el primer experimento en serie finaliza 1,97 veces más rápido. El tiempo medio de paso aumenta de 191 s a 500 s, sólo 2,62 veces más lento.
La mayor parte de ese aumento se debe al tiempo de implementación. El lanzamiento crece de 162 a 401, aproximadamente el 77% del aumento. En N=2, duplicar la carga agrega solo un 15 % de tiempo de implementación. Ese es el caso ideal para multi-LoRA.
El patrón se mantuvo con una carga de trabajo más dura. En el comercio minorista de τ-bench con el modelo MoE NVIDIA-Nemotron-3-Nano-30B-A3B-BF16, N=2 finalizó 10 pasos 1,28 veces más rápido. El tiempo de paso por inquilino aumentó 1,57 veces.
Fortalezas y debilidades
Fortalezas:
Aumento de rendimiento del experimento de 2,81 veces de un extremo a otro en ocho ejecuciones simultáneas Sin regresión de precisión; las ejecuciones rastrearon la línea de base en serie dentro de ±1σ en los pasos finales LoRA corta la memoria en un orden de magnitud versus un ajuste fino completo Totalmente de código abierto en NovaSky-AI/SkyRL para que la comunidad pueda construir sobre él
Debilidades:
La latencia por paso y el tiempo del primer experimento se degradan a medida que N crece. La capacitación permanece serializada entre los inquilinos; solo se multiplexa la inferencia Probado principalmente en modelos de tamaño mediano, no en parámetros de escala fronteriza La configuración requiere un nodo 8× H100/H200 y una construcción Megatron
Conclusiones clave
Trajectory creó una pila de capacitación simultánea de múltiples LoRA RL para el aprendizaje continuo, de código abierto en NovaSky-AI/SkyRL. Informa una ganancia de 2,81 veces en el rendimiento del experimento de un extremo a otro con respecto a una línea base de un solo inquilino, sin regresión de recompensa. Cada experimento se asigna a un adaptador LoRA dedicado en un motor siempre caliente, multiplexando el rendimiento por N. La mayoría de las ganancias provienen de la inferencia vLLM multi-LoRA a través del núcleo de decodificación SGMV; estancias de entrenamiento monoadaptador. La desventaja es la latencia por paso: en N=8, el tiempo del paso aumenta de 191 a 500 segundos.
Explicador visual de Marktechpost
Dónde (inferencias) correr
Proveedores de inferencia y computación
Dónde acceder al modelo base Qwen3-4B-Instruct-2507, la pila de entrenamiento SkyRL y las GPU NVIDIA utilizadas en los experimentos.
Consulte el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.