Análisis del «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, Episodio III
Continuamos nuestra inmersión profunda en el gran libro de Sutton sobre la vida real. [1] y aquí nos centramos en los métodos de Monte Carlo (MC). Estos son capaces de aprender sólo de la experiencia, es decir, no requieren ningún tipo de modelo del entorno, como por ejemplo lo exige el Métodos de programación dinámica (PD) que presentamos en la publicación anterior.
Esto es extremadamente tentador, ya que a menudo no se conoce el modelo o es difícil modelar las probabilidades de transición. Consideremos el juego de Veintiuna:aunque entendemos completamente el juego y las reglas, resolverlo a través de métodos DP sería muy tedioso: tendríamos que calcular todo tipo de probabilidades, por ejemplo, dadas las cartas que se juegan actualmente, ¿qué probabilidad hay de un “blackjack”, qué probabilidad hay de que se reparta otro siete…? A través de los métodos MC, no tenemos que lidiar con nada de esto, y simplemente jugamos y aprendemos de la experiencia.
Debido a que no utilizan un modelo, los métodos de MC son imparciales. Son conceptualmente simples y fáciles de entender, pero presentan una alta varianza y no se pueden resolver de manera iterativa (bootstrapping).
Como se mencionó, aquí presentaremos estos métodos siguiendo el Capítulo 5 del libro de Sutton…