2.1 Aprendizaje de aprendizaje:
Un método fundamental para aprender de las demostraciones de expertos es el aprendizaje por aprendizaje, introducido por primera vez en [1]. A diferencia del aprendizaje por refuerzo inverso puro, el objetivo aquí es ambos para encontrar el vector de recompensa óptima así como inferir la política experta de las demostraciones dadas. Comenzamos con la siguiente observación:
Matemáticamente esto se puede ver utilizando la desigualdad de Cauchy-Schwarz. Este resultado es realmente bastante poderoso, ya que permite centrarse en hacer coincidir las expectativas de las características, lo que garantizará la coincidencia de las funciones de valor. independientemente del vector de peso de recompensa.
En la práctica, el aprendizaje por aprendizaje utiliza un algoritmo iterativo basado en la principio de margen máximo aproximarse µ(π*) – dónde π* es la política experta (desconocida). Para ello procedemos de la siguiente manera:
- Comience con una política inicial (potencialmente aleatoria) y calcule su expectativa de características, así como la expectativa de características estimada de la política de expertos a partir de las demostraciones (estimada mediante Monte Carlo).
- Para las expectativas de características dadas, encuentre el vector de peso que maximiza el margen entre µ(π*) y el otro (μ(π)). En otras palabras, queremos el vector de peso que discriminar lo más posible entre la política experta y la formada
- Una vez que este vector de peso w’ encontrado, utilice el aprendizaje por refuerzo clásico, con la función de recompensa aproximada con el mapa de características ϕ y w’ — para encontrar la próxima política capacitada
- Repita los 2 pasos anteriores hasta alcanzar el margen más pequeño entre µ(π*) y el de cualquier póliza determinada. µ(π) está por debajo de un cierto umbral, lo que significa que entre todas las políticas entrenadas, hemos encontrado una que coincide con la expectativa de la característica experta hasta un cierto ϵ
Escrito más formalmente:
2.2 IRL con demostraciones clasificadas:
El principio de margen máximo en el aprendizaje por aprendizaje no hace ninguna suposición sobre la relación entre las diferentes trayectorias: el algoritmo se detiene tan pronto como cualquier conjunto de trayectorias alcanza un margen lo suficientemente estrecho. Sin embargo, la subóptima de las demostraciones es una advertencia bien conocida en el aprendizaje por refuerzo inverso y, en particular, en la variación en la calidad de las demostraciones. Una información adicional que podemos explotar es la ranking de las manifestaciones – y, en consecuencia, clasificación de las expectativas de características.
Más precisamente, considere los rangos {1,…, k} (de peor a mejor) y expectativas de características μ₁, …, μₖ. Expectativa de características μᵢ se calcula a partir de trayectorias de rango i. Queremos que nuestra función de recompensa Discriminar eficientemente entre demostraciones de diferente calidad.es decir:
En este contexto, [5] presenta un manejable Formulación de este problema en un Programa Cuadrático (QP), utilizando una vez más el principio del margen máximo, es decir, maximizar el margen más pequeño entre dos clases diferentes. Formalmente:
En realidad, esto es muy similar a la optimización ejecutada por los modelos SVM para la clasificación multiclase. El modelo de optimización integral es el siguiente: consulte [5] para más detalles:
2.3 Extrapolación de recompensa basada en perturbaciones (D-REX):
Presentado en [4]el algoritmo D-REX también utiliza este concepto de IRL con preferencias clasificadas pero en generado manifestaciones. La intuición es la siguiente:
- A partir de las demostraciones de los expertos, imítelas mediante clonación conductual, obteniendo así una base de referencia. π₀
- Generar conjuntos clasificados de demostración con diferentes grados de desempeño mediante inyectando diferentes niveles de ruido a π₀: en [4] Los autores demuestran que para dos niveles de ruido. ϵ y γtal que ϵ > γ (es decir, ϵ es “más ruidoso” que γ) tenemos con alta probabilidad que V[π(. | ϵ)]
dónde π(. | x) es la política resultante de inyectar ruido incógnita en π₀. - Dada esta clasificación automatizada proporcionada, ejecute un IRL a partir del método de demostraciones clasificadas (T-REX) basado en la aproximación de la función de recompensa con un red neuronal entrenada con una pérdida por pares – ver [3] para más detalles
- Con la aproximación de la función de recompensa. R’ obtenido del paso IRL, ejecute un método RL clásico con R’ para obtener la póliza final
Más formalmente: