En el aprendizaje por refuerzo a partir de la retroalimentación humana, es común optimizar con un modelo de recompensa entrenado para predecir las preferencias humanas. Debido a que el modelo de recompensa es un sustituto imperfecto, optimizar demasiado su valor puede obstaculizar el rendimiento real del terreno, de acuerdo con la ley de Goodhart. Este efecto se ha observado con frecuencia, pero no se ha medido cuidadosamente debido al gasto que supone recopilar datos sobre las preferencias humanas. En este trabajo, utilizamos una configuración sintética en la que un modelo de recompensa fijo “estándar de oro” desempeña el papel de humanos, proporcionando etiquetas utilizadas para entrenar un modelo de recompensa proxy. Estudiamos cómo cambia la puntuación del modelo de recompensa de oro a medida que optimizamos frente al modelo de recompensa proxy utilizando aprendizaje por refuerzo o muestreo del mejor de n. Encontramos que esta relación sigue una forma funcional diferente dependiendo del método de optimización, y que en ambos casos sus coeficientes escalan suavemente con el número de parámetros del modelo de recompensa. También estudiamos el efecto sobre esta relación del tamaño del conjunto de datos del modelo de recompensa, el número de parámetros de política y modelo de recompensa, y el coeficiente de penalización de KL agregado a la recompensa en la configuración de aprendizaje por refuerzo. Exploramos las implicaciones de estos resultados empíricos para consideraciones teóricas en la alineación de la IA.