Utilice la función de pérdida del algoritmo Policy Gradient como clave para comprender varios algoritmos de aprendizaje de refuerzo: REINFORCE, Actor-Critic y PPO, que son preparaciones teóricas para comprender el algoritmo Reinforcement Learning from Human Feedback (RLHF) utilizado para construir ChatGPT.
Estudiar el aprendizaje por refuerzo puede ser frustrante porque el campo está plagado de jerga confusa y algoritmos con diferencias sutiles.
Luché, hasta que un día mi gran colega Pedro Vrancs Rápidamente escribió la derivación de la función de pérdida para el algoritmo Policy Gradient REINFORCE. Utilizando esta derivación, este artículo vincula los siguientes algoritmos:
- REFORZARSE
- El concepto de ventaja para la reducción de la varianza y el algoritmo Actor-Crítico
- Optimización de políticas proximales (PPO)
Si bien hay muchos artículos que cubren estos algoritmos, este artículo proporciona un ángulo único para estudiarlos de una sola vez para ahorrarle tiempo de aprendizaje.
En mi opinión, comprender estos tres algoritmos es la base teórica…