Métodos de Monte Carlo para resolver problemas de aprendizaje por refuerzo | por Oliver S

Métodos de Monte Carlo para resolver problemas de aprendizaje por refuerzo | por Oliver S | Sep, 2024

Análisis del «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, Episodio III

Continuamos nuestra inmersión profunda en el gran libro de Sutton sobre la vida real. [1] y aquí nos centramos en los métodos de Monte Carlo (MC). Estos son capaces de aprender sólo de la experiencia, es decir, no requieren ningún tipo de modelo del entorno, como por ejemplo lo exige el Métodos de programación dinámica (PD) que presentamos en la publicación anterior.

Esto es extremadamente tentador, ya que a menudo no se conoce el modelo o es difícil modelar las probabilidades de transición. Consideremos el juego de Veintiuna:aunque entendemos completamente el juego y las reglas, resolverlo a través de métodos DP sería muy tedioso: tendríamos que calcular todo tipo de probabilidades, por ejemplo, dadas las cartas que se juegan actualmente, ¿qué probabilidad hay de un “blackjack”, qué probabilidad hay de que se reparta otro siete…? A través de los métodos MC, no tenemos que lidiar con nada de esto, y simplemente jugamos y aprendemos de la experiencia.

Foto de Jannis Lucas en Dejar de salpicar

Debido a que no utilizan un modelo, los métodos de MC son imparciales. Son conceptualmente simples y fáciles de entender, pero presentan una alta varianza y no se pueden resolver de manera iterativa (bootstrapping).

Como se mencionó, aquí presentaremos estos métodos siguiendo el Capítulo 5 del libro de Sutton…

Métodos de Monte Carlo para resolver problemas de aprendizaje por refuerzo | por Oliver S | Sep, 2024

ByEquipo de 7 minutos

Análisis del «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, Episodio III

By Equipo de 7 minutos

Related Post

Creación de NQS basado en transformadores para sistemas de giro frustrados con NetKet

Una implementación de codificación para construir sistemas de inteligencia artificial de múltiples agentes con SmolAgents mediante ejecución de código, llamada de herramientas y orquestación dinámica

UCSD y Together AI Research presentan Parcae: una arquitectura estable para modelos de lenguaje en bucle que logra la calidad de un transformador dos veces más grande

You missed

Novedades del viernes 17 al jueves 23 de abril

Adnan Sami habla sobre su conexión con Ashaji Bhosle

‘Ese era un baño maravilloso’: el comandante de Artemis 2 defiende el baño lunar de la misión

Trump, fuera de contacto con los precios de la gasolina: “No son muy altos”