Las curvas de escala sigmoideas hacen que el aprendizaje por refuerzo RL posterior a la capacitación sea predecible para los LLM
La capacitación posterior al aprendizaje por refuerzo de RL es ahora una palanca importante para los LLM centrados en el razonamiento, pero a diferencia de la capacitación previa, no ha…