Trajectory lanza una pila de entrenamiento multi-LoRA simultánea para el aprendizaje continuo, lo que reporta una ganancia en el rendimiento del experimento de 2,81 veces

La pila multi-LoRA concurrente de Trajectory informa una ganancia de rendimiento del experimento de 2,81 veces respecto a RL de un solo inquilino, con todo el código en el repositorio NovaSky-AI/SkyRL GitHub.

La mayoría de los modelos de lenguaje mejoran en saltos discontinuos. Un equipo recopila datos, entrena y envía una nueva versión. Esto lleva meses y produce comportamientos notables o catastróficos para los usuarios. Trajectory quiere reemplazar ese ciclo con un aprendizaje continuo.

El equipo de Trajectory publicó un informe de campo que describe cómo. Creó una plataforma de capacitación simultánea de múltiples LoRA para cargas de trabajo de aprendizaje continuo. El trabajo se realizó con UC Berkeley Sky Lab y Anyscale. Todo el código de capacitación es de código abierto en el repositorio NovaSky-AI/SkyRL.

El resultado es una mejora de 2,81 veces en el rendimiento del experimento de un extremo a otro. La comparación se realiza con un marco de capacitación de inquilino único. Trayectoria no informa ninguna regresión en ninguna recompensa de entrenamiento.

¿Qué es realmente el entrenamiento Multi-LoRA?

El aprendizaje continuo requiere que los modelos se actualicen a partir de comentarios en vivo e interacciones de producción. Un agente codificador podría aprender patrones de ingeniería a medida que los desarrolladores corrigen su trabajo. Un agente de soporte podría resolver tickets difíciles mientras los operadores intervienen en casos difíciles.

La mayor parte de la infraestructura de formación todavía supone un ciclo de vida lineal. Los equipos asignan GPU, inicializan el modelo, ejecutan un trabajo y luego reducen el funcionamiento. El aprendizaje continuo revisa esa relación. Cuando las interacciones de producción se convierten en insumos de capacitación, la capacitación se convierte en parte de un sistema vivo.

El entrenamiento RL moderno se reduce a tres primitivas centrales. El Sampler genera trayectorias a partir del modelo de política actual. El Entrenador calcula los gradientes y actualiza las ponderaciones de las políticas. La sincronización de parámetros transmite pesos actualizados a los trabajadores de inferencia.

Trajectory llama a su enfoque Entrenamiento Continuo Multi-LoRA, o C-LoRA. Cada experimento se asigna a un adaptador LoRA dedicado en un motor cálido y multiinquilino.

Los problemas a los que se dirige

El equipo de Trajectory identifica cuatro ineficiencias en las pilas tradicionales:

(1) Los arranques en frío son lentos: cada trabajo en serie recarga los puntos de control, inicializa el tiempo de ejecución distribuido y calienta los motores de inferencia. Para modelos grandes, este paso por sí solo puede exceder los 30 minutos por ejecución.

(2) RL consume mucha memoria: los modelos Frontier a menudo superan los 100B de parámetros. Qwen3.5-397B puede requerir hasta ocho nodos H200 para caber en la memoria. LoRA reduce el uso de memoria en un orden de magnitud. Congela el modelo base y entrena sólo pequeños pesos de adaptador.

(3) Las pilas tradicionales son de un solo inquilino: ejecutan un experimento a la vez. Multi-LoRA asigna cada experimento a un adaptador, multiplexando el rendimiento por un factor de N.

(4) La utilización del trabajo es baja: los entrenadores y los motores de inferencia se paran mientras se esperan unos a otros. La carga Multi-LoRA equilibra los trabajos para llenar la capacidad inactiva.

Dentro de la Arquitectura

La mayoría de las mejoras en el rendimiento provienen de la inferencia. En vLLM, todos los adaptadores se cargan en caliente en la memoria de la GPU. Luego, los pasos de decodificación pueden mezclar tokens de diferentes adaptadores en el mismo lote. El habilitador clave es el núcleo de decodificación SGMV. Fusiona el trabajo de vector de matriz por adaptador en un lanzamiento de GPU por paso de decodificación.

Después de cada paso de optimización, los pesos LoRA actualizados se cargan in situ en el motor de inferencia. El programador no se congela, por lo que otros inquilinos siguen decodificando.

El entrenamiento funciona de manera diferente. Un adaptador LoRA activo se entrena en la GPU. El resto se encuentra en la memoria de la CPU fijada. El estado de cada inquilino vive en un AdapterStore. Contiene parámetros LoRA, pesos maestros FP32, momentos optimizadores y buffers de gradiente.

El motor intercambia el estado de un inquilino en la GPU, ejecuta un único pase forward_backward y luego lo vuelve a intercambiar. Esta ruta de formación sigue siendo de un solo adaptador. Las ganancias de simultaneidad de inferencia aún no se aplican al entrenamiento.

Los números

Trayectoria probada en un único nodo H200 con Qwen3-4B-Instruct-2507. Ejecutó Sync RL en GSM8K en un entorno agente. El equipo de Trajectory reformuló GSM8K como una tarea de aprendizaje sobre el uso de herramientas. El modelo decide cuándo llamar a una Calculadora y a una herramienta de Respuesta final. La recompensa es 1.0 solo cuando se llama a la Respuesta final con la respuesta correcta.

La política comienza con una precisión cercana al 40 % en el paso 0. Con el algoritmo de aprendizaje correcto, supera el 90 % en el paso 9.

El equipo de Trajectory aumentó a ocho ejecuciones simultáneas de múltiples LoRA. El tiempo del experimento final alcanzó 5433 s en N = 8, una aceleración de 2,81 ×. Ocho experimentos simultáneos finalizaron antes de tres ejecuciones en serie consecutivas. El tiempo medio del experimento también mejoró, alcanzando un máximo de N=4 con una aceleración de 1,88×. Cada nivel de simultaneidad alcanzó una recompensa_accuracy superior al 90 % en el paso 9.

Las compensaciones

Mayor rendimiento cuesta latencia por paso. A medida que N crece, el tiempo del primer experimento y el tiempo del paso se degradan. En N=8, el primer experimento en serie finaliza 1,97 veces más rápido. El tiempo medio de paso aumenta de 191 s a 500 s, sólo 2,62 veces más lento.

La mayor parte de ese aumento se debe al tiempo de implementación. El lanzamiento crece de 162 a 401, aproximadamente el 77% del aumento. En N=2, duplicar la carga agrega solo un 15 % de tiempo de implementación. Ese es el caso ideal para multi-LoRA.

El patrón se mantuvo con una carga de trabajo más dura. En el comercio minorista de τ-bench con el modelo MoE NVIDIA-Nemotron-3-Nano-30B-A3B-BF16, N=2 finalizó 10 pasos 1,28 veces más rápido. El tiempo de paso por inquilino aumentó 1,57 veces.

Fortalezas y debilidades

Fortalezas:

Aumento de rendimiento del experimento de 2,81 veces de un extremo a otro en ocho ejecuciones simultáneas Sin regresión de precisión; las ejecuciones rastrearon la línea de base en serie dentro de ±1σ en los pasos finales LoRA corta la memoria en un orden de magnitud versus un ajuste fino completo Totalmente de código abierto en NovaSky-AI/SkyRL para que la comunidad pueda construir sobre él

Debilidades:

La latencia por paso y el tiempo del primer experimento se degradan a medida que N crece. La capacitación permanece serializada entre los inquilinos; solo se multiplexa la inferencia Probado principalmente en modelos de tamaño mediano, no en parámetros de escala fronteriza La configuración requiere un nodo 8× H100/H200 y una construcción Megatron

Conclusiones clave

Trajectory creó una pila de capacitación simultánea de múltiples LoRA RL para el aprendizaje continuo, de código abierto en NovaSky-AI/SkyRL. Informa una ganancia de 2,81 veces en el rendimiento del experimento de un extremo a otro con respecto a una línea base de un solo inquilino, sin regresión de recompensa. Cada experimento se asigna a un adaptador LoRA dedicado en un motor siempre caliente, multiplexando el rendimiento por N. La mayoría de las ganancias provienen de la inferencia vLLM multi-LoRA a través del núcleo de decodificación SGMV; estancias de entrenamiento monoadaptador. La desventaja es la latencia por paso: en N=8, el tiempo del paso aumenta de 191 a 500 segundos.

Explicador visual de Marktechpost

Informe de campo · 27 de mayo de 2026

Formación continua Multi-LoRA para el aprendizaje continuo

Trayectoria, construida con UC Berkeley Sky Lab y Anyscale.

2,81 veces la ganancia en el rendimiento del experimento de un extremo a otro

01 — Qué es

Un motor siempre caliente, muchos adaptadores

El aprendizaje continuo actualiza los modelos a partir de comentarios en vivo e interacciones de producción.

Trajectory llama a su enfoque Entrenamiento Continuo Multi-LoRA (C-LoRA). Cada experimento se asigna a un adaptador LoRA dedicado en un motor cálido y multiinquilino.

Dechado

Genera trayectorias a partir del modelo de política actual.

Entrenador

Calcula los gradientes y actualiza las ponderaciones de las políticas.

Sincronización de parámetros

Transmite pesos actualizados a los trabajadores de inferencia.

el cambio

La formación se convierte en parte de un servicio distribuido y en vivo.

02 — Los problemas a los que se dirige

Cuatro ineficiencias en las pilas de RL en serie

Arranques lentos en frío

Cada trabajo recarga los puntos de control y calienta los motores. Esto puede exceder los 30 minutos por ejecución.

RL con uso intensivo de memoria

Qwen3.5-397B puede necesitar hasta ocho nodos H200. LoRA reduce la memoria en un orden de magnitud.

Inquilino único

Un experimento se ejecuta a la vez. El rendimiento del multiplexado Multi-LoRA es por un factor de N.

Baja utilización

El entrenador y el motor de inferencia se paran esperándose el uno al otro. Multi-LoRA llena la capacidad inactiva.

03 — Dentro de la arquitectura

De dónde proviene el rendimiento

Inferencia. En vLLM, todos los adaptadores se cargan en caliente en la memoria de la GPU. El Núcleo de decodificación SGMV fusiona el trabajo por adaptador en un lanzamiento de GPU por paso de decodificación. Sincronización de peso. Los pesos LoRA actualizados se cargan en el lugar. El programador no se congela, por lo que otros inquilinos siguen decodificando. Capacitación. Un adaptador activo se entrena en la GPU; el resto se encuentra en la memoria de la CPU fijada.

Tienda de adaptadores

El estado de cada inquilino contiene parámetros LoRA, pesos maestros FP32, momentos optimizadores y buffers de gradiente. Este camino sigue siendo de un solo adaptador.

04 — La configuración

GSM8K, replanteado como una tarea de uso de herramientas

Probado en un único nodo H200 con Qwen3-4B-Instrucción-2507ejecutando sync RL en GSM8K en un entorno agente.

El modelo decide cuándo llamar a una Calculadora y a una herramienta de Respuesta final. La recompensa es 1.0 solo cuando se llama a la Respuesta final con la respuesta correcta. La política comienza con una precisión cercana al 40 % y supera el 90 % en el paso 9.

05 — Los números

2,81 veces el rendimiento, sin regresión de recompensa

2,81×

Tiempo final del experimento en N=8 (5433 s)

1,88×

Tiempo medio del experimento, con un máximo de N=4

>90%

recompensa_accuracy en cada nivel en el paso 9

Ocho experimentos simultáneos finalizaron antes de tres ejecuciones en serie consecutivas. Las ejecuciones siguieron la línea de base en serie dentro de ±1σ en los pasos finales.

06 — Las compensaciones

Aumento del rendimiento y latencia por paso

En N=8, el tiempo medio de paso aumenta de 191 s a 500 s, 2,62 veces más lento. La implementación crece de 162 a 401, aproximadamente el 77% del aumento. En N=2, duplicar la carga agrega solo un 15 % de tiempo de implementación: el caso ideal.

Control más estricto de la carga de trabajo

En el comercio minorista de τ-bench con el modelo MoE NVIDIA-Nemotron-3-Nano-30B-A3B-BF16, N=2 finalizó 10 pasos 1,28 veces más rápido; el tiempo de paso por inquilino aumentó 1,57 veces.

07 – Comidas para llevar

que recordar

Capacitación simultánea de múltiples LoRA RL para el aprendizaje continuo, de código abierto en NovaSky-AI/SkyRL. Aumento del rendimiento del experimento de 2,81 veces de un extremo a otro respecto de una línea base de un solo inquilino. La mayoría de las ganancias provienen de la inferencia vLLM multi-LoRA; estancias de entrenamiento monoadaptador. SkyRL implementa la API Tinker; reproducir en 8× H100/H200 con el libro de cocina Tinker.

Dónde (inferencias) correr

Ejecútelo / Acceda al modelo

Proveedores de inferencia y computación

Dónde acceder al modelo base Qwen3-4B-Instruct-2507, la pila de entrenamiento SkyRL y las GPU NVIDIA utilizadas en los experimentos.

Consulte el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.