Synpref-40m y Skywork-Reward-V2: alineación de Human-AI escalable para modelos de recompensa de última generación
Comprender las limitaciones de los modelos de recompensa actuales Aunque los modelos de recompensas juegan un papel crucial en el aprendizaje de refuerzo de la retroalimentación humana (RLHF), muchos de…