Q-Learning profundo práctico.  Sube de nivel a tu agente para ganar más… |  de Dr. Robert Kübler |  noviembre de 2023

APRENDIZAJE REFORZADO

¡Sube de nivel a tu agente para ganar juegos más difíciles!

14 minutos de lectura

Hace 19 horas

Foto por Sean Stratton en desempaquetar

El aprendizaje por refuerzo es uno de los campos más fascinantes del aprendizaje automático. A diferencia del aprendizaje supervisado, los modelos de aprendizaje por refuerzo pueden aprender procesos complejos de forma independiente, incluso sin datos bellamente tabulados.

Para mí, es muy divertido ver a los agentes de IA ganar videojuegos, pero también se puede utilizar el aprendizaje por refuerzo para resolver problemas comerciales. Simplemente dígalo como un juego y ¡listo! Sólo tienes que definir…

  • el entorno en el que vive su agente,
  • qué decisiones puede tomar su agente, y
  • cómo son el éxito y el fracaso.
Ejemplo de un agente de IA dominando un juego. Recoger a un cliente y llevarlo al hotel. Imagen del autor.

Antes de continuar, lea mi artículo introductorio sobre el aprendizaje por refuerzo. Le brinda más contexto y le muestra cómo llevar a cabo usted mismo una forma simple pero efectiva de aprendizaje por refuerzo. También sirve de base para este artículo.

En este artículo, aprenderá sobre el Q-learning profundo, por qué lo necesitamos y cómo implementarlo usted mismo para dominar un juego que parece mucho más difícil que los de mi otro artículo.

Puedes encontrar el código en mi github.

En el artículo vinculado anteriormente, llevamos a cabo Q-learning para hacer que un agente juegue algunos juegos simples con pequeños espacios de observación discretos. En el juego Frozen Lake, como ejemplo, tienes 16 campos (=estados u observaciones, de ahora en adelante uso estos términos indistintamente) en los que puedes pararte en el mapa 4×4. En el versión de gimnasio del juego de cartas Blackjackhay 32 · 11 · 2 = 704 estados.

Ineficiencias del Q-Learning