Los investigadores de NVIDIA proponen el preentrenamiento de aprendizaje por refuerzo (RLP): el refuerzo como objetivo del preentrenamiento para desarrollar el razonamiento durante el preentrenamiento
Por qué esto es importante desde el punto de vista técnico: a diferencia de las variantes anteriores de “preentrenamiento de refuerzo” que se basan en escasas señales binarias de corrección…