Mejora de la precisión en la evaluación de políticas de aprendizaje por refuerzo mediante la normalización

El aprendizaje por refuerzo (RL) se ha vuelto muy popular recientemente debido a su uso en relación con grandes modelos de lenguaje (LLM). RL se define como un conjunto de algoritmos centrados en que un agente aprende a tomar decisiones interactuando con un entorno. El objetivo del proceso de aprendizaje es maximizar las recompensas a lo largo del tiempo.

Cada intento del agente de aprender puede afectar la función de valor, que estima la recompensa acumulada esperada que el agente puede lograr a partir de un estado específico (o par estado-acción) mientras sigue una política particular. La política en sí sirve como guía para evaluar la conveniencia de diferentes estados o acciones.

Conceptualmente, el algoritmo RL contiene dos pasos, evaluación de políticas y mejora de políticas, que se ejecutan de forma iterativa para lograr el mejor nivel alcanzable de la función de valor. En este artículo limitamos nuestra atención al concepto de normalización en el marco de la evaluación de políticas.

La evaluación de políticas está estrechamente relacionada con el concepto de Estado. Un estado representa la situación o condición actual del entorno que el agente observa y utiliza para decidir la siguiente acción. El estado suele describirse mediante un conjunto de variables cuyos valores caracterizan las condiciones actuales del medio ambiente.

Por automata