Las curvas de escala sigmoideas hacen que el aprendizaje por refuerzo RL posterior a la capacitación sea predecible para los LLM

La capacitación posterior al aprendizaje por refuerzo de RL es ahora una palanca importante para los LLM centrados en el razonamiento, pero a diferencia de la capacitación previa, no ha tenido reglas de escala predictivas. Los equipos invierten decenas de miles de horas de GPU en ejecuciones sin una forma basada en principios de estimar si una receta seguirá mejorando con más computación. Una nueva investigación de Meta, UT Austin, UCL, Berkeley, Harvard y Periodic Labs proporciona un marco de rendimiento informático (validado durante más de 400 000 horas de GPU) que modela el progreso de RL con una curva sigmoidea y proporciona una receta probada, ScaleRL, que sigue esas curvas previstas hasta 100 000 horas de GPU.

Ajuste una ley sigmoidea, no una potencia

El entrenamiento previo a menudo se ajusta a las leyes de potencia (pérdida frente a cálculo). El ajuste fino de RL apunta a métricas limitadas (por ejemplo, tasa de aprobación/recompensa media). El equipo de investigación muestra que los ajustes sigmoidales para la tasa de aprobación versus el cálculo de entrenamiento son empíricamente más sólidos y estables que los ajustes de ley de potencia, especialmente cuando se desea extrapolar de ejecuciones más pequeñas a presupuestos más grandes. Excluyen el régimen ruidoso inicial (~primeras 1,5k horas de GPU) y se ajustan a la parte predecible que sigue. Los parámetros sigmoidales tienen funciones intuitivas: uno establece el rendimiento asintótico (techo), otro la eficiencia/exponente y otro el punto medio donde las ganancias son más rápidas.

https://arxiv.org/pdf/2510.13786

Por qué eso es importante: Después de aproximadamente entre 1.000 y 2.000 horas de GPU, puedes ajustar la curva y pronosticar si vale la pena pasar a 10.000 o 100.000 horas de GPU, antes de gastar el presupuesto. La investigación también muestra que los ajustes de la ley de potencias pueden producir techos engañosos a menos que solo se ajusten a un cálculo muy alto, lo que frustra el propósito de la previsión temprana.

ScaleRL: una receta que escala de forma predecible

ScaleRL no es sólo un nuevo algoritmo; es una composición de opciones que produjo una escala estable y extrapolable en el estudio:

Pipeline RL asíncrono (generador-entrenador dividido entre GPU) para un rendimiento fuera de la política. CISPO (REINFORCE de muestreo de importancia truncado) como pérdida de RL. Precisión FP32 en los logits para evitar discrepancias numéricas entre el generador y el entrenador. Promedio de pérdidas a nivel rápido y normalización de ventajas a nivel de lotes. Interrupciones de longitud forzadas para limitar las líneas desbocadas. Filtrado de variación cero (eliminar mensajes que no proporcionan señal de gradiente). Sin remuestreo positivo (elimine los mensajes de alta tasa de aprobación ≥0,9 de épocas posteriores).

El equipo de investigación validó cada componente con ablaciones de dejar uno fuera (LOO) a 16.000 horas de GPU y muestra que las curvas ajustadas de ScaleRL se extrapolan de manera confiable de 8k → 16k y luego se mantienen en escalas mucho más grandes, incluida una sola ejecución extendida a 100.000 horas de GPU.

https://arxiv.org/pdf/2510.13786

Resultados y generalización

Dos demostraciones clave:

Previsibilidad a escala: para un modelo denso 8B y un Llama-4 17B×16 MoE (“Scout”), el entrenamiento extendido siguió de cerca las extrapolaciones sigmoideas derivadas de segmentos de cómputo más pequeños. Transferencia descendente: las mejoras en la tasa de aprobación en un conjunto de validación iid rastrean la evaluación descendente (por ejemplo, AIME-24), lo que sugiere que la curva de rendimiento de cómputo no es un artefacto del conjunto de datos.

La investigación también compara curvas ajustadas para recetas predominantes (por ejemplo, DeepSeek (GRPO), Qwen-2.5 (DAPO), Magistral, MiniMax-M1) e informa un mayor rendimiento asintótico y una mejor eficiencia informática para ScaleRL en su configuración.

https://arxiv.org/pdf/2510.13786

¿Qué perillas mueven el techo frente a la eficiencia?

El marco le permite clasificar las opciones de diseño:

Motores de techo (asíntota): el tamaño del modelo de escala (por ejemplo, MoE) y las longitudes de generación más largas (hasta 32.768 tokens) aumentan el rendimiento asintótico, pero pueden ralentizar el progreso inicial. Un tamaño de lote global más grande también puede elevar la asíntota final y estabilizar el entrenamiento. Modeladores de eficiencia: la agregación de pérdidas, la normalización de ventajas, el plan de estudios de datos y el proceso fuera de las políticas cambian principalmente la rapidez con la que uno se acerca al techo, no el techo en sí.

Operacionalmente, el equipo de investigación aconseja ajustar las curvas temprano y priorizar las intervenciones que elevan el techo, luego ajustar las perillas de eficiencia para alcanzarlo más rápido en cómputo fijo.

Conclusiones clave

El equipo de investigación modela el progreso posterior al entrenamiento de RL con curvas sigmoidales de rendimiento de cómputo (tasa de aprobación frente a cómputo logarítmico), lo que permite una extrapolación confiable, a diferencia de los ajustes de ley de potencia en métricas acotadas. Una receta de mejores prácticas, ScaleRL, combina PipelineRL-k (generador-entrenador asíncrono), pérdida CISPO, logits FP32, agregación de nivel de solicitud, normalización de ventajas, control de longitud basado en interrupciones, filtrado de varianza cero y remuestreo sin positivo. Utilizando estos ajustes, el equipo de investigación predijo y comparó ejecuciones extendidas de hasta 100 000 horas de GPU (8 000 millones de densidad) y ~50 000 horas de GPU (17 B×16 MoE “Scout”) en curvas de validación. Las ablaciones muestran que algunas opciones mueven el techo asintótico (A) (p. ej., escala de modelo, longitudes de generación más largas, lote global más grande), mientras que otras mejoran principalmente la eficiencia informática (B) (p. ej., agregación/normalización, plan de estudios, canalización fuera de políticas). El marco proporciona pronósticos tempranos para decidir si escalar una ejecución y mejoras en las métricas posteriores de seguimiento de validación en la distribución (por ejemplo, AIME-24), lo que respalda la validez externa.

Este trabajo convierte el post-entrenamiento de RL de prueba y error en ingeniería predecible. Se ajusta a curvas sigmoidales de rendimiento de cálculo (tasa de aprobación frente a cálculo logarítmico) para predecir los rendimientos y decidir cuándo detenerse o escalar. También proporciona una receta concreta, ScaleRL, que utiliza generación/entrenamiento asincrónico estilo PipelineRL, pérdida CISPO y logits FP32 para estabilidad. El estudio informa >400.000 horas de GPU de experimentos y una extensión de ejecución única a 100.000 horas de GPU. Los resultados respaldan una división clara: algunas opciones elevan la asíntota; otros mejoran principalmente la eficiencia informática. Esa separación ayuda a los equipos a priorizar los cambios importantes antes de ajustar los controles de rendimiento.

Mira el PAPEL. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.