Q-Learning profundo práctico. Sube de nivel a tu agente para ganar más… | de Dr. Robert Kübler

Q-Learning profundo práctico. Sube de nivel a tu agente para ganar más… | de Dr. Robert Kübler | noviembre de 2023

APRENDIZAJE REFORZADO

¡Sube de nivel a tu agente para ganar juegos más difíciles!

14 minutos de lectura

Hace 19 horas

El aprendizaje por refuerzo es uno de los campos más fascinantes del aprendizaje automático. A diferencia del aprendizaje supervisado, los modelos de aprendizaje por refuerzo pueden aprender procesos complejos de forma independiente, incluso sin datos bellamente tabulados.

Para mí, es muy divertido ver a los agentes de IA ganar videojuegos, pero también se puede utilizar el aprendizaje por refuerzo para resolver problemas comerciales. Simplemente dígalo como un juego y ¡listo! Sólo tienes que definir…

el entorno en el que vive su agente,
qué decisiones puede tomar su agente, y
cómo son el éxito y el fracaso.

Ejemplo de un agente de IA dominando un juego. Recoger a un cliente y llevarlo al hotel. Imagen del autor.

Antes de continuar, lea mi artículo introductorio sobre el aprendizaje por refuerzo. Le brinda más contexto y le muestra cómo llevar a cabo usted mismo una forma simple pero efectiva de aprendizaje por refuerzo. También sirve de base para este artículo.

En este artículo, aprenderá sobre el Q-learning profundo, por qué lo necesitamos y cómo implementarlo usted mismo para dominar un juego que parece mucho más difícil que los de mi otro artículo.

Puedes encontrar el código en mi github.

En el artículo vinculado anteriormente, llevamos a cabo Q-learning para hacer que un agente juegue algunos juegos simples con pequeños espacios de observación discretos. En el juego Frozen Lake, como ejemplo, tienes 16 campos (=estados u observaciones, de ahora en adelante uso estos términos indistintamente) en los que puedes pararte en el mapa 4×4. En el versión de gimnasio del juego de cartas Blackjackhay 32 · 11 · 2 = 704 estados.

Q-Learning profundo práctico. Sube de nivel a tu agente para ganar más… | de Dr. Robert Kübler | noviembre de 2023

ByEquipo de 7 minutos

APRENDIZAJE REFORZADO

¡Sube de nivel a tu agente para ganar juegos más difíciles!

Ineficiencias del Q-Learning

By Equipo de 7 minutos

Related Post

Microsoft AI presenta MAI-Transcribe-1.5: 2,4% WER en análisis artificial, la mejor precisión FLEURS de su clase y transcripción de audio de larga duración hasta 5 veces más rápida

Creación de optimización de avisos reflexivos con GEPA: avisos de múltiples componentes, comentarios estructurados y validación retenida

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

You missed

El acceso por telesalud a la píldora abortiva salva vidas a las sobrevivientes de violencia doméstica, dicen algunos

Liane Carroll Trio en Clarence Jazz Club « Euro Weekly News

¿Qué pasó con la gimnasta? – Vida en Hollywood

Microsoft AI presenta MAI-Transcribe-1.5: 2,4% WER en análisis artificial, la mejor precisión FLEURS de su clase y transcripción de audio de larga duración hasta 5 veces más rápida