Investigadores de Stanford y UT Austin proponen aprendizaje de preferencia contrastiva (CPL): un método simple de aprendizaje por refuerzo sin RL para RLHF que funciona con MDP arbitrarios y datos fuera de política
El desafío de hacer coincidir las preferencias humanas con los grandes modelos previamente entrenados ha ganado importancia en el estudio a medida que estos modelos han aumentado su rendimiento. Esta…