Prime Intellect ha lanzado la versión 0.6.0 de Prime-rl. El marco apunta al aprendizaje reforzado en modelos de combinación de expertos (MoE) de billones de parámetros. Se centra en cargas de trabajo intensas, como tareas de ingeniería de software de largo plazo.
El equipo de investigación entrenó a GLM-5 en tareas SWE con una longitud de secuencia de hasta 131k. Los tiempos de los pasos se mantuvieron por debajo de los cinco minutos. El tamaño del lote fue de 256 implementaciones. La ejecución utilizó sólo 28 nodos H200.
TL;DR
prime-rl 0.6.0 entrena modelos MoE de billones de parámetros en cargas de trabajo de RL agentes. GLM-5 entrenado en SWE con una longitud de secuencia de 131k, pasos de menos de 5 minutos y 28 nodos H200. La RL asincrónica desagrega el entrenador y la inferencia para una optimización independiente. La inferencia utiliza FP8, Wide EP, desagregación P/D, descarga KV y reproducción de enrutador. La capacitación utiliza paralelismo tridimensional (FSDP, EP, CP) más FP8 a escala de bloques.
¿Qué es Prime-rl 0.6.0?
prime-rl es un marco abierto para el aprendizaje por refuerzo asincrónico. Entrena posteriormente grandes modelos de código abierto en tareas de agencia. La versión 0.6.0 extiende esto a una escala MoE de billones de parámetros.
El modelo de ejemplo en el anuncio es zai-org/GLM-5.1. Las optimizaciones también se aplican a otros modelos MoE grandes. Los ejemplos incluyen moonshotai/Kimi-K2.7-Code y nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16.
Una ejecución completa de GLM-5.1 comienza con un comando en un clúster de Slurm.
Papel de RL asincrónico
Las tareas agentes tienen valores atípicos de cola larga. Algunas implementaciones de codificación duran horas. Esperarlos antes de cada actualización de política dejaría inactivas las GPU.
La RL asincrónica evita esto. Los sistemas de entrenador e inferencia están desagregados. Se ejecutan y escalan de forma independiente. La política de inferencia se actualiza tan pronto como finaliza el paso del optimizador.
Hay un punto de sincronización: la actualización de la política. prime-rl impulsa nuevos pesos tan pronto como existen. Las implementaciones ya enviadas mantienen su caché de prefijo activa. Por lo tanto, una sola implementación puede mezclar tokens de varias versiones de políticas.
Las nuevas implementaciones se comportan de manera diferente. Repoblan su propia caché KV, incluso cuando los prefijos coinciden. Una sal de caché KV obliga a esto. Las solicitudes de una política demasiado antigua se descartan. El valor max_off_policy_steps controla ese umbral.
Optimizaciones de inferencia
La inferencia suele ser el cuello de botella en el rendimiento de un sistema RL. prime-rl optimiza el rendimiento, manteniendo la latencia limitada.
Inferencia del 8PM: una menor precisión acelera el prellenado y la decodificación. prime-rl usa FP8 con kernels DeepEP y DeepGEMM.
Amplio paralelismo de expertos: Wide EP distribuye a los expertos en ≥32 GPU. Se combina con un gran rango de datos paralelos, por ejemplo 32. Cada GPU tiene expertos separados y sirve como punto final. La sincronización se produce por capa, mediante operaciones de envío y combinación.
Desglose de precarga y decodificación: algunos pares de modelo↔env alcanzan una proporción de token de precarga:decodificación de 4:1. Los trabajadores compartidos aumentarían la latencia de un extremo a otro. Eso reduce los beneficios de PipelineRL. La desagregación P/D separa a los trabajadores de prellenado y decodificación. Las salidas largas de la herramienta dejan de limitar a los trabajadores de decodificación.
Gestión de caché KV: la alta concurrencia necesita un gran espacio de caché KV. prime-rl admite la descarga por niveles a la CPU y al disco. La descarga nativa de vLLM crea un grupo por trabajador. En cambio, Mooncake Store agrupa la RAM y el disco en todos los nodos de forma centralizada.
Solicitar enrutamiento: prime-rl envía una bifurcación de vllm-router de forma predeterminada. También es compatible con el enrutador NVIDIA Dynamo como complemento. Los enrutadores califican a los trabajadores mediante la reutilización de caché KV, la profundidad de la cola y la carga en vivo.
Repetición del enrutador (R3): la falta de coincidencia entre el entrenador y la inferencia mata silenciosamente el entrenamiento. La reproducción del enrutador captura las decisiones de enrutamiento por inferencia. Los reproduce directamente en el entrenador. Esto reduce el desajuste de KL en aproximadamente un orden de magnitud. Los expertos derrotados tienen forma [num_layers, top_k, seq_len]. Esta carga útil puede crecer hasta cientos de GB. A escala, la velocidad de datos alcanza decenas de Gbps. Entonces prime-rl lo trata como una carga útil opaca. Las operaciones optimizadas de PyTorch se encargan del procesamiento.
Optimizaciones de entrenamiento
El entrenador se basa en torchtitan, un código base de entrenamiento nativo de PyTorch. Se basa en el paralelismo tridimensional: FSDP, CP y EP. El estudio de caso GLM-5 utiliza los tres.
EP existe porque las capas siguen siendo enormes después de FSDP. Con 78 capas y 800B parámetros en float32, la recopilación total de una capa necesita aproximadamente 40 GB. La superposición de una capa la acerca a los 80 GB. Configurar EP=8 envía tokens en lugar de reunir expertos completos. all2all nativo de torch es ligeramente más rápido dentro de un nodo. DeepEP gana cuando EP abarca varios nodos.
CP importa con una longitud de secuencia de más de 131k. Allí, las activaciones dominan la memoria, no los parámetros. GLM-5 utiliza DSA, que ni Ulysses ni Ring Attention paralelizan directamente. Entonces, prime-rl envía una implementación paralela al contexto personalizada para ello.
Formación del 8PM. prime-rl utiliza FP8 a escala de bloques DeepGEMM, según lo propuesto por DeepSeek V3. Esto rara vez aumenta el rendimiento debido a la sobrecarga de cuantificación. Su valor real es la coincidencia del entrenador y la precisión de la inferencia. Eso reduce el desajuste de KL y estabiliza el entrenamiento.
Explicador interactivo
Casos de uso con ejemplos
Agentes SWE de largo horizonte: entrenar un modelo sobre cuestiones reales de repositorio. Los despliegues pueden abarcar cientos de giros y llamadas de herramientas. La desagregación P/D mantiene la latencia de decodificación predecible aquí. Postentrenamiento a escala 1T en menos nodos: la ejecución del GLM-5 cabe en 28 nodos H200. La descarga amplia de EP y KV aumenta la simultaneidad y el rendimiento. RL agente estable a escala: la repetición del enrutador y el entrenamiento del FP8 reducen la discrepancia entre el entrenador y la inferencia de KL. Un menor desajuste significa un entrenamiento más estable.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros