Los investigadores de NVIDIA presentaron ProRL AGENT, una infraestructura escalable diseñada para la capacitación en aprendizaje por refuerzo (RL) de agentes LLM de múltiples turnos. Al adoptar una filosofía de “implementación como servicio”, el sistema desacopla la orquestación de implementación agente del ciclo de capacitación. Este cambio de arquitectura aborda los conflictos de recursos inherentes entre las interacciones del entorno con uso intensivo de E/S y las actualizaciones de políticas con uso intensivo de GPU que actualmente obstaculizan el desarrollo de agentes.
El problema central: el acoplamiento estrecho
Las tareas de agentes de múltiples turnos implican interactuar con entornos externos, como repositorios de código o sistemas operativos, mediante el uso iterativo de herramientas. Muchos marcos existentes, incluidos SkyRL, VeRL-Tool, Agent Lightning, rLLM y GEM, incorporan el control de implementación directamente dentro del proceso de capacitación.
Este estrecho acoplamiento conduce a dos limitaciones principales:
Requisitos del sistema en conflicto: las implementaciones están vinculadas a E/S, lo que requiere la creación de un espacio aislado, sesiones de herramientas de larga duración y coordinación asincrónica. El entrenamiento requiere una GPU intensiva y se centra en pases hacia adelante/atrás y sincronización de gradientes. La ejecución de ambos en un solo proceso provoca interferencias y reduce la eficiencia del hardware. Barreras de mantenimiento: incorporar la lógica de implementación en el entrenador dificulta la migración a diferentes backends de capacitación o el soporte de nuevos entornos de ejecución sin volver a implementar el proceso de ejecución.
Diseño del sistema: implementación como servicio
ProRL AGENT opera como un servicio HTTP independiente que gestiona el ciclo de vida completo de la implementación. El entrenador de RL interactúa con el servidor únicamente a través de una API, siendo independiente de la infraestructura de implementación subyacente.
Canalización asincrónica de tres etapas
Para maximizar el rendimiento, el servidor organiza los lanzamientos a través de una “línea de montaje” asincrónica de tres etapas:
INIT: los trabajadores de inicialización ponen en marcha contenedores sandbox y configuran herramientas. EJECUTAR: los trabajadores de implementación impulsan el circuito del agente de múltiples turnos y recopilan trayectorias. EVAL: Los trabajadores de evaluación califican los resultados comparándolos con la verdad básica para producir señales de recompensa.
Al asignar cada etapa a un grupo de trabajadores independiente, ProRL AGENT permite que las fases se superpongan en diferentes trabajos, lo que evita que las evaluaciones lentas (como las ejecuciones completas del conjunto de pruebas) detengan el proceso de implementación.
Sandboxing compatible con HPC y herramientas optimizadas
ProRL AGENT utiliza Singularity para su infraestructura sandbox. A diferencia de las plataformas basadas en Docker, Singularity permite la ejecución sin raíz, que es necesaria para la implementación en clústeres HPC compartidos administrados por Slurm.
El sistema incluye varias optimizaciones para reducir la latencia de ejecución de la herramienta, que a menudo domina el tiempo total de implementación:
Bash eficiente: reemplaza la multiplexación de terminal basada en tmux con un pseudoterminal directo basado en ptyprocess, lo que reduce la latencia del comando de shell de 0,78 a 0,42 s. API IPython directa: se conecta a kernels persistentes a través de una API en proceso en lugar de puertas de enlace de red, lo que elimina la sobrecarga de la red. Unix Domain Sockets (UDS): reemplaza el bucle invertido TCP para la comunicación entre el agente y el servidor de ejecución dentro del contenedor para reducir la latencia adicional.
Funciones avanzadas para RL escalable
La infraestructura introduce mecanismos para mejorar la estabilidad del entrenamiento y la utilización del hardware:
Equilibrio de carga y reutilización de caché de prefijos
El servidor gestiona un conjunto de servidores de inferencia de LLM (por ejemplo, vLLM) utilizando un montón mínimo codificado por recuentos de asignaciones. Cuando se asigna una tarea, todas las llamadas posteriores dentro de esa tarea se enrutan al mismo servidor. Esta estrategia maximiza la reutilización de la caché de prefijos, lo que reduce el tiempo de inferencia entre múltiples turnos de agentes.
Comunicación de entrada y salida de token
Para eliminar la deriva de la re-tokenización, donde la secuencia de tokens generada durante la implementación difiere de lo que se usa durante el entrenamiento, ProRL AGENT utiliza ID de tokens como representación canónica durante todo el proceso. Las probabilidades de registro y los ID se propagan sin cambios desde el backend de inferencia al entrenador.
Implementación optimizada de DAPO
El sistema admite la optimización de políticas de muestreo dinámico (DAPO), que filtra las indicaciones “no informativas” que generan recompensas uniformes. ProRL AGENT utiliza un mecanismo de reabastecimiento asincrónico para mantener el máximo rendimiento, finalizando anticipadamente los trabajos activos redundantes una vez que se alcanza el número objetivo de mensajes informativos.
Resultados experimentales en SWE-Bench verificados
El sistema se validó utilizando modelos Qwen3 en múltiples escalas. ProRL AGENT mejoró consistentemente el rendimiento en comparación con las líneas de base reproducidas.
Nota: El resultado anterior informado para SkyRL-Agent-14B-v0 fue 21,6.
Además de la ingeniería de software, el sistema demostró generalidad en los dominios STEM, Matemáticas y Código, mostrando un crecimiento constante de la recompensa durante la capacitación de RL. Las pruebas de escalabilidad confirmaron que el rendimiento de la implementación aumenta casi linealmente a medida que se agregan nodos de computación.
Conclusiones clave
Desacoplamiento arquitectónico: ProRL Agent trata el ciclo de vida completo de implementación de agentes, incluida la inicialización del entorno, la ejecución de herramientas y la puntuación de recompensas, como un servicio HTTP independiente, separando las tareas intensivas de E/S de la capacitación de políticas intensivas de GPU. Importantes ganancias de rendimiento: esta infraestructura permitió que el modelo Qwen3-8B casi duplicara su rendimiento en el punto de referencia SWE-Bench Verified (del 9,6 % al 18,0 %), mientras que el modelo Qwen3-14B mejoró del 15,4 % al 23,6 %. Reducciones de la latencia del sistema: optimizaciones específicas, como reemplazar tmux con ptyprocess para la ejecución del shell, redujeron la latencia de acción de 0,78 s a 0,42 s, lo que contribuyó a un escalamiento del rendimiento casi lineal entre los nodos informáticos. Eliminación de la deriva de tokenización: el marco utiliza un canal de comunicación de entrada y salida de token, lo que garantiza que los ID de token exactos generados durante la implementación se pasen al entrenador sin el riesgo de una nueva tokenización con pérdidas. Implementación nativa de HPC: al utilizar Singularity en lugar de Docker, ProRL Agent admite la ejecución sin raíz y la integración nativa de Slurm, lo que permite la capacitación de agentes a gran escala en clústeres informáticos compartidos de alto rendimiento.
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.