Leyes de escala para la sobreoptimización del modelo de recompensa

En el aprendizaje por refuerzo a partir de la retroalimentación humana, es común optimizar con un modelo de recompensa entrenado para predecir las preferencias humanas. Debido a que el modelo de recompensa es un sustituto imperfecto, optimizar demasiado su valor puede obstaculizar el rendimiento real del terreno, de acuerdo con la ley de Goodhart. Este efecto se ha observado con frecuencia, pero no se ha medido cuidadosamente debido al gasto que supone recopilar datos sobre las preferencias humanas. En este trabajo, utilizamos una configuración sintética en la que un modelo de recompensa fijo “estándar de oro” desempeña el papel de humanos, proporcionando etiquetas utilizadas para entrenar un modelo de recompensa proxy. Estudiamos cómo cambia la puntuación del modelo de recompensa de oro a medida que optimizamos frente al modelo de recompensa proxy utilizando aprendizaje por refuerzo o muestreo del mejor de n. Encontramos que esta relación sigue una forma funcional diferente dependiendo del método de optimización, y que en ambos casos sus coeficientes escalan suavemente con el número de parámetros del modelo de recompensa. También estudiamos el efecto sobre esta relación del tamaño del conjunto de datos del modelo de recompensa, el número de parámetros de política y modelo de recompensa, y el coeficiente de penalización de KL agregado a la recompensa en la configuración de aprendizaje por refuerzo. Exploramos las implicaciones de estos resultados empíricos para consideraciones teóricas en la alineación de la IA.

Leyes de escala para la sobreoptimización del modelo de recompensa

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

Vicki Gunvalson ofrece información actualizada sobre su compromiso y matrimonio con Michael Smith

Conduzca más lento, ahorre dinero en gasolina. ¡Gracias Física!

Cómo las estadísticas se convierten en propaganda

Torrevieja lanza la campaña de compras de verano con más de 5.000€ en premios – The Leader