Aprendizaje de diferencia temporal y la importancia de la exploración: una guía ilustrada |  de Ryan Pegoud |  septiembre de 2023

En conclusión, el agente Q-learning convergió a un estrategia subóptima Como se mencionó previamente. Además, una parte del medio ambiente permanece inexplorado por la función Q, que evita que el agente encuentre el nuevo camino óptimo cuando aparece el portal púrpura después del episodio número 100.

Estas limitaciones de rendimiento se pueden atribuir a la relativa bajo número de pasos de entrenamiento (400), limitando las posibilidades de interacción con el medio ambiente y la exploración inducida por la política ε-codiciosa.

Planificaciónun componente esencial de basado en modelos Los métodos de aprendizaje por refuerzo son particularmente útiles para mejorar eficiencia de la muestra y estimación de valores de acción. Dyna-Q y Dyna-Q+ son buenos ejemplos de algoritmos TD que incorporan pasos de planificación.

El algoritmo Dyna-Q (Dynamic Q-learning) es una combinación de RL basado en modelos y aprendizaje TD.

Los algoritmos RL basados ​​en modelos se basan en un modelo del medio ambiente incorporar la planificación como forma principal de actualizar las estimaciones de valor. Por el contrario, los algoritmos sin modelos se basan en el aprendizaje directo.

“Un modelo del entorno es cualquier cosa que un agente pueda utilizar para predecir cómo responderá el entorno a sus acciones” — Aprendizaje por refuerzo: una introducción.

En el alcance de este artículo, el modelo puede verse como una aproximación de la dinámica de transición. p(s’, r|s, a). Aquí, pag devuelve un único par de siguiente estado y recompensa dado el par estado-acción actual.

En ambientes donde pag es estocásticodistinguimos modelos de distribución y modelos de muestra, el primero devuelve una distribución de los siguientes estados y acciones, mientras que el segundo devuelve un solo par, muestreado de la distribución estimada.

Los modelos son especialmente útiles para simular episodios y, por lo tanto, entrenar al agente reemplazando las interacciones del mundo real con pasos de planificación, es decir, interacciones con el entorno simulado.

Los agentes que implementan el algoritmo Dyna-Q son parte de la clase de agentes de planificaciónagentes que combinar el aprendizaje por refuerzo directo y aprendizaje modelo. Utilizan interacciones directas con el entorno para actualizar su función de valor (como en Q-learning) y también para aprender un modelo del entorno. Después de cada interacción directa, también pueden realizar pasos de planificación para actualizar su función de valor mediante interacciones simuladas.

Un ejemplo rápido de ajedrez

Imagínese jugando una buena partida de ajedrez. Después de realizar cada movimiento, la reacción de tu oponente te permite evaluar la calidad de tu movimiento. Esto es similar a recibir una recompensa positiva o negativa, lo que le permite “actualizar” su estrategia. Si tu movimiento te lleva a un error, probablemente no lo volverías a hacer, siempre que tengas la misma configuración del tablero. Hasta ahora, esto es comparable a aprendizaje por refuerzo directo.

Ahora agreguemos planificación a la mezcla. Imagina que después de cada uno de tus movimientos, mientras el oponente piensa, mentalmente repasas cada uno de tus movimientos anteriores a reevaluar su calidad. Es posible que encuentres debilidades que pasaste por alto a primera vista o descubras que movimientos específicos fueron mejores de lo que pensabas. Estos pensamientos también pueden permitirle actualizar su estrategia. De esto se trata exactamente la planificación, actualizar la función de valor sin interactuar con el entorno real sino más bien un modelo de dicho entorno.

Planificar, actuar, aprender modelos y RL directo: el cronograma de un agente de planificación (realizado por el autor)

Por lo tanto, Dyna-Q contiene algunos pasos adicionales en comparación con Q-learning:

Después de cada actualización directa de los valores Q, el modelo almacena el par estado-acción y la recompensa y el siguiente estado que se observaron. Este paso se llama entrenamiento modelo.

  • Después del entrenamiento del modelo, Dyna-Q realiza norte pasos de planificación:
  • Se selecciona un par aleatorio de estado-acción del búfer del modelo (es decir, este par de estado-acción se observó durante interacciones directas)
  • El modelo genera la recompensa simulada y el siguiente estado.
  • La función de valor se actualiza utilizando las observaciones simuladas (s, a, r, s’)