Métodos de Monte Carlo para resolver problemas de aprendizaje por refuerzo | por Oliver S | Sep, 2024

Análisis del «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, Episodio III

Continuamos nuestra inmersión profunda en el gran libro de Sutton sobre la vida real. [1] y aquí nos centramos en los métodos de Monte Carlo (MC). Estos son capaces de aprender sólo de la experiencia, es decir, no requieren ningún tipo de modelo del entorno, como por ejemplo lo exige el Métodos de programación dinámica (PD) que presentamos en la publicación anterior.

Esto es extremadamente tentador, ya que a menudo no se conoce el modelo o es difícil modelar las probabilidades de transición. Consideremos el juego de Veintiuna:aunque entendemos completamente el juego y las reglas, resolverlo a través de métodos DP sería muy tedioso: tendríamos que calcular todo tipo de probabilidades, por ejemplo, dadas las cartas que se juegan actualmente, ¿qué probabilidad hay de un “blackjack”, qué probabilidad hay de que se reparta otro siete…? A través de los métodos MC, no tenemos que lidiar con nada de esto, y simplemente jugamos y aprendemos de la experiencia.

Foto de Jannis Lucas en Dejar de salpicar

Debido a que no utilizan un modelo, los métodos de MC son imparciales. Son conceptualmente simples y fáciles de entender, pero presentan una alta varianza y no se pueden resolver de manera iterativa (bootstrapping).

Como se mencionó, aquí presentaremos estos métodos siguiendo el Capítulo 5 del libro de Sutton…