NVIDIA AI presenta PivotRL: un nuevo marco de IA que logra una alta precisión agente con 4 veces menos turnos de implementación de manera eficiente

Los modelos de lenguaje grande (LLM, por sus siglas en inglés) posteriores al entrenamiento para tareas agentes de largo plazo, como ingeniería de software, navegación web y uso de herramientas complejas, presentan una compensación persistente entre la eficiencia computacional y la generalización del modelo. Si bien el ajuste fino supervisado (SFT) es computacionalmente económico, con frecuencia sufre una degradación del rendimiento fuera del dominio (OOD) y tiene dificultades para generalizar más allá de su distribución de entrenamiento. Por el contrario, el aprendizaje por refuerzo de un extremo a otro (E2E RL) generalmente preserva las capacidades de OOD y logra una alta precisión en el dominio, pero incurre en costos de computación masivos debido a la necesidad de implementaciones repetidas y de muchas políticas activas para cada actualización de parámetros.

Los investigadores de NVIDIA han presentado PivotRL, un marco diseñado para cerrar esta brecha. Al operar en trayectorias SFT existentes, PivotRL tiene como objetivo ofrecer los beneficios de generalización de E2E RL mientras mantiene la eficiencia de los datos asociada con SFT.

La arquitectura de un pivote

El núcleo de PivotRL es la transición de implementaciones de trayectoria completa a actualizaciones específicas a nivel de turno. El marco identifica y utiliza dos mecanismos principales: filtrado dinámico y recompensas funcionales.

1. Filtrado pivotante

En la capacitación de agentes a nivel de turnos, cada finalización de asistente en un límite de llamada de modelo se considera una acción. PivotRL comienza extrayendo todos los turnos de asistente de un conjunto de datos SFT en un grupo de “candidatos de pivote”.

Luego, el sistema perfila a estos candidatos fuera de línea utilizando una política de referencia congelada, π0. Para optimizar el presupuesto de capacitación, PivotRL filtra por pivotes: estados específicos donde las implementaciones locales dentro de las políticas muestran una gran variación en los resultados. Los criterios de filtrado están definidos por dos condiciones:

Varianza de recompensa empírica distinta de cero: σ^2(s)>0\hat{\sigma}^2(s) > 0. Media de recompensa baja: μ^(s)<λdiff\hat{\mu}(s) < \lambda_{diff}

Este enfoque aborda el cuello de botella del giro desinformativo. En la RL normalizada por grupo, específicamente en la optimización de políticas relativas al grupo (GRPO), los giros en los que las acciones tienen éxito o fallan uniformemente dan como resultado una ventaja normalizada de cero, sin proporcionar una actualización de gradiente significativa. Al centrarse en giros de resultados mixtos que siguen siendo difíciles para la política de referencia, PivotRL concentra el cálculo en los estados que proporcionan la señal de aprendizaje más fuerte.

2. Implementación de recompensas funcionales

Las adaptaciones estándar de SFT a RL a menudo se basan en una coincidencia exacta de cadenas con los datos de demostración para asignar recompensas. Sin embargo, en espacios de acciones generativas (por ejemplo, comandos de shell o consultas de búsqueda), múltiples acciones funcionalmente equivalentes pueden diferir de la cadena específica en los datos de entrenamiento.

PivotRL reemplaza la coincidencia estricta con recompensas funcionales, rfunc(s,a)=1[a∈ℳ(s)]r_{func}(s, a) = 1[a \in \mathcal{M}(s)]donde ℳ(s)\mathcal{M}(s) es el conjunto de acciones localmente aceptables determinadas por un verificador específico de dominio. Estos verificadores pueden variar desde comprobaciones de esquemas normalizados y similitudes de cadenas hasta puntuaciones ligeras de LLM como juez.

Fundamentos teóricos: señal de gradiente y retención de OOD

La efectividad de estas opciones de diseño está respaldada por dos resultados teóricos principales:

Teorema 3.2 (Varianza de recompensa y señal GRPO): el equipo de investigación demostró que la norma de Fisher del gradiente natural del objetivo de recompensa estatal escala con la desviación estándar de recompensa. Específicamente, la puntuación GRPO de la población, γs,β,equalsσβ2\gamma_{s, \beta}, es igual a \frac{\sigma}{\beta^2}. Esto valida la estrategia de filtrado de pivotes de resultados mixtos para maximizar la señal de aprendizaje local en el dominio. Teorema 3.3 (Cambio mínimo de KL): este teorema demuestra que el RL funcional basado en recompensas desplaza la masa de probabilidad hacia acciones aceptables mientras preserva el orden de probabilidad relativa de la política de referencia para acciones no relacionadas con la tarea de entrenamiento. Debido a que la clasificación relativa de las acciones no relacionadas con la tarea permanece sin cambios, PivotRL mitiga significativamente el olvido catastrófico y la degradación de OOD comunes en SFT.

Rendimiento y eficiencia

El equipo de investigación evaluó PivotRL utilizando Qwen3-30B-A3B-Thinking-2507 como modelo base en cuatro dominios agentes: uso de herramientas conversacionales (τ2−Bench)(\tau^2-Bench), ingeniería de software (SWE-Bench Verified), control de terminal (Terminal-Bench) y navegación web (BrowseComp).

Ganancias de precisión en el dominio

En comparación con SFT con datos idénticos, PivotRL logró resultados superiores en el dominio:

Ganancia promedio: +14,11 puntos sobre el modelo base, en comparación con +9,94 puntos para SFT. Detalles del dominio: PivotRL superó a SFT en τ2−Bench\tau^2-Bench (+5,37), Terminal-Bench (+6,25) y BrowseComp (+9,80).

Retención fuera del dominio

La ventaja más significativa se observó en la estabilidad de OOD. Mientras que SFT provocó una regresión promedio de -9,83 en ocho puntos de referencia de OOD (incluido el control de calidad de matemáticas y ciencias), PivotRL mantuvo un cambio promedio cercano a cero de +0,21. En particular, PivotRL logró una precisión OOD un 10,04 % mayor en tareas no genéticas en comparación con SFT.

Eficiencia informática en SWE-Bench

En SWE-Bench Verified, un estándar riguroso para agentes de largo plazo, PivotRL demostró una reducción sustancial en los gastos generales de capacitación:

Eficiencia de giro: PivotRL alcanzó niveles de precisión comparables a E2E RL usando 4 veces menos giros de lanzamiento. Eficiencia temporal: el entrenamiento fue ~5,5 veces más rápido en tiempo de reloj de pared que E2E RL cuando se usó la misma cantidad de nodos de cómputo.

Conclusiones clave

Eficiencia híbrida: PivotRL combina la eficiencia informática del ajuste fino supervisado (SFT) con la generalización fuera del dominio (OOD) de RL de extremo a extremo. Filtrado de pivotes: el marco identifica ‘pivotes’: giros intermedios críticos donde las acciones muestreadas muestran una gran variación en el éxito/fracaso, lo que proporciona las señales de aprendizaje más fuertes. Verificadores funcionales: en lugar de requerir coincidencias de texto exactas, PivotRL utiliza verificadores específicos de dominio para recompensar cualquier acción funcionalmente equivalente. Estabilidad de OOD: a diferencia de SFT, PivotRL preserva el rendimiento del modelo en tareas no relacionadas (por ejemplo, matemáticas) manteniendo el orden de probabilidad de la política de referencia para acciones no relacionadas con tareas. Velocidad de producción: logra una precisión comparable a E2E RL con 4 veces menos giros de lanzamiento y un tiempo de entrenamiento ~5,5 veces más rápido, como se demuestra en Nemotron-3-Super de NVIDIA.

Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.