La recompensa es la fuerza impulsora de los agentes de aprendizaje por refuerzo (RL). Dado su papel central en la vida real, a menudo se supone que la recompensa es adecuadamente general en su expresividad, como lo resume la hipótesis de recompensa de Sutton y Littman:
En nuestro trabajo, damos los primeros pasos hacia un estudio sistemático de esta hipótesis. Para hacerlo, consideramos el siguiente experimento mental que involucra a Alice, una diseñadora, y Bob, un agente de aprendizaje:
Supongamos que Alice piensa en una tarea que le gustaría que Bob aprendiera a resolver; esta tarea podría adoptar la forma de una descripción en lenguaje natural (“equilibrar este polo”), un estado de cosas imaginado (“alcanzar cualquiera de las configuraciones ganadoras de un tablero de ajedrez”), o algo más tradicional como una función de recompensa o valor. Luego, imaginamos que Alice traduce su elección de tarea en algún generador que proporcionará una señal de aprendizaje (como una recompensa) a Bob (un agente de aprendizaje), quien aprenderá de esta señal durante toda su vida. Luego fundamentamos nuestro estudio de la hipótesis de la recompensa abordando la siguiente pregunta: dada la elección de tarea de Alice, ¿existe siempre una función de recompensa que pueda transmitirle esta tarea a Bob?
¿Qué es una tarea?
Para concretar nuestro estudio de esta cuestión, primero restringimos el enfoque a tres tipos de tareas. En particular, presentamos tres tipos de tareas que creemos que capturan tipos sensatos de tareas: 1) Un conjunto de políticas aceptables (SOAP), 2) Un orden de políticas (PO) y 3) Un orden de trayectoria (TO). Estas tres formas de tareas representan ejemplos concretos de los tipos de tareas que podríamos querer que un agente aprenda a resolver.
Luego estudiamos si la recompensa es capaz de capturar cada uno de estos tipos de tareas en entornos finitos. Fundamentalmente, sólo centramos la atención en las funciones de recompensa de Markov; por ejemplo, dado un espacio de estados que es suficiente para formar una tarea como pares (x,y) en un mundo de cuadrícula, ¿existe una función de recompensa que solo dependa de este mismo espacio de estados que pueda capturar la tarea?
Primer resultado principal
Nuestro primer resultado principal muestra que para cada uno de los tres tipos de tareas, hay pares entorno-tarea para los cuales no existe una función de recompensa de Markov que pueda capturar la tarea. Un ejemplo de este par es la tarea de “recorrer toda la cuadrícula en el sentido de las agujas del reloj o en el sentido contrario” en un mundo de cuadrícula típico:
Esta tarea se captura naturalmente mediante un SOAP que consta de dos políticas aceptables: la política “en el sentido de las agujas del reloj” (en azul) y la política “en el sentido contrario a las agujas del reloj” (en morado). Para que una función de recompensa de Markov exprese esta tarea, sería necesario que estas dos políticas tuvieran un valor estrictamente mayor que el de todas las demás políticas deterministas. Sin embargo, no existe tal función de recompensa de Markov: la optimización de una única acción de “mover en el sentido de las agujas del reloj” dependerá de si el agente ya se estaba moviendo en esa dirección en el pasado. Dado que la función de recompensa debe ser Markov, no puede transmitir este tipo de información. Ejemplos similares demuestran que la recompensa de Markov no puede capturar también todos los órdenes de políticas y trayectorias.
Segundo resultado principal
Dado que algunas tareas se pueden capturar y otras no, a continuación exploramos si existe un procedimiento eficiente para determinar si una tarea determinada se puede capturar mediante recompensa en un entorno determinado. Además, si hay una función de recompensa que captura la tarea dada, lo ideal sería poder generar dicha función de recompensa. Nuestro segundo resultado es un resultado positivo que dice que para cualquier par finito de entorno-tarea, existe un procedimiento que puede 1) decidir si la tarea puede ser capturada por la recompensa de Markov en el entorno dado, y 2) generar la función de recompensa deseada que transmite exactamente la tarea, cuando tal función existe.
Este trabajo establece vías iniciales para comprender el alcance de la hipótesis de la recompensa, pero aún queda mucho por hacer para generalizar estos resultados más allá de los entornos finitos, las recompensas de Markov y las nociones simples de “tarea” y “expresividad”. Esperamos que este trabajo proporcione nuevas perspectivas conceptuales sobre la recompensa y su lugar en el aprendizaje por refuerzo.