Google DeepMind presenta a Mona: un nuevo marco de aprendizaje automático para mitigar la piratería de recompensas de múltiples pasos en el aprendizaje de refuerzo
El aprendizaje de refuerzo (RL) se centra en permitir a los agentes aprender comportamientos óptimos a través de mecanismos de capacitación basados en recompensas. Estos métodos tienen sistemas capacitados para…