Leyes de escala para la sobreoptimización del modelo de recompensa
En el aprendizaje por refuerzo a partir de la retroalimentación humana, es común optimizar con un modelo de recompensa entrenado para predecir las preferencias humanas. Debido a que el modelo…