Analizando el “aprendizaje por refuerzo” de Richard S. Sutton con implementaciones personalizadas de Python, Episodio V
En nuestra publicación anterior, concluimos la serie introductoria sobre técnicas fundamentales de aprendizaje por refuerzo (RL) explorando el aprendizaje de diferencia temporal (TD). Los métodos TD combinan las fortalezas de los métodos de Programación Dinámica (DP) y Monte Carlo (MC), aprovechando sus mejores características para formar algunos de los algoritmos RL más importantes, como Q-learning.
Sobre la base de esa base, esta publicación profundiza en Aprendizaje TD en n pasosun enfoque versátil presentado en el capítulo 7 del libro de Sutton [1]. Este método cierra la brecha entre las técnicas clásicas de TD y MC. Al igual que TD, los métodos de n pasos utilizan bootstrapping (aprovechando estimaciones previas), pero también incorporan el siguiente n
recompensas, ofreciendo una combinación única de aprendizaje a corto y largo plazo. En una publicación futura, generalizaremos este concepto aún más con rastros de elegibilidad.
Seguiremos un enfoque estructurado, comenzando con el problema de predicción antes de pasar a control. En el camino, haremos:
- Introducir n-paso sarsa,
- extenderlo a aprendizaje fuera de las políticas,
- Explora el algoritmo de copia de seguridad de árbol de n pasosy
- Presentar una perspectiva unificadora con n-paso Q(σ).
Como siempre, puedes encontrar todo el código adjunto en GitHub. ¡Vamos a sumergirnos!