Open-Relesterer-Zero: una implementación de código abierto de capacitación en aprendizaje de refuerzo orientado a razonamiento a gran escala
La capacitación de aprendizaje de refuerzo a gran escala (RL) de modelos de idiomas en tareas de razonamiento se ha convertido en una técnica prometedora para dominar habilidades complejas de…