¿Es curiosidad todo lo que necesitas?  Sobre la utilidad de los comportamientos emergentes de la exploración curiosa

Durante una exploración puramente curiosa, el brazo de JACO descubre cómo coger cubos, moverlos por el espacio de trabajo e incluso explorar si se pueden equilibrar sobre sus bordes.

La exploración curiosa permite a OP3 caminar erguido, mantener el equilibrio sobre un pie, sentarse e incluso recuperarse de forma segura cuando salta hacia atrás, todo sin una tarea específica para optimizar.

Motivación intrínseca [1, 2] Puede ser un concepto poderoso para dotar a un agente de un mecanismo para explorar continuamente su entorno en ausencia de información sobre la tarea. Una forma común de implementar la motivación intrínseca es a través del aprendizaje por curiosidad. [3, 4]. Con este método, se entrena un modelo predictivo sobre la respuesta del entorno a las acciones de un agente junto con la política del agente. Este modelo también puede denominarse modelo mundial. Cuando se realiza una acción, el modelo mundial hace una predicción sobre la próxima observación del agente. Luego, esta predicción se compara con la observación real realizada por el agente. Fundamentalmente, la recompensa otorgada al agente por realizar esta acción se escala según el error que cometió al predecir la siguiente observación. De esta manera, el agente es recompensado por realizar acciones cuyos resultados aún no son bien predecibles. Simultáneamente, el modelo mundial se actualiza para predecir mejor el resultado de dicha acción.

Este mecanismo se ha aplicado con éxito en entornos de políticas, por ejemplo, para vencer a juegos de computadora 2D sin supervisión. [4] o formar una política general que sea fácilmente adaptable a tareas concretas posteriores. [5]. Sin embargo, creemos que la verdadera fuerza del aprendizaje por curiosidad radica en el comportamiento diverso que emerge durante el proceso de exploración curiosa: a medida que cambia el objetivo de la curiosidad, también lo hace el comportamiento resultante del agente, descubriendo así muchas políticas complejas que podrían utilizarse más adelante. si fueron retenidos y no sobrescritos.

en este papelhacemos dos contribuciones para estudiar el aprendizaje por curiosidad y aprovechar su comportamiento emergente: primero, presentamos selmo, una realización fuera de la política de un método de exploración automotivado y basado en la curiosidad. Mostramos que al utilizar SelMo, surge un comportamiento significativo y diverso basándose únicamente en la optimización del objetivo de curiosidad en dominios de manipulación y locomoción simulados. En segundo lugar, proponemos ampliar el enfoque en la aplicación del aprendizaje por curiosidad hacia la identificación y retención de comportamientos intermedios emergentes. Respaldamos esta conjetura con un experimento que recarga comportamientos autodescubiertos como habilidades auxiliares previamente entrenadas en una configuración de aprendizaje por refuerzo jerárquico.

El flujo de control del método SelMo: el agente (actor) recopila trayectorias en el entorno utilizando su política actual y las almacena en el búfer de reproducción del modelo a la izquierda. El modelo del mundo conectado toma muestras uniformemente de ese búfer y actualiza sus parámetros para la predicción directa mediante el descenso de gradiente estocástico (SGD). A las trayectorias muestreadas se les asignan recompensas de curiosidad escaladas por su respectivo error de predicción según el modelo mundial actual. Luego, las trayectorias etiquetadas se pasan al búfer de reproducción de políticas de la derecha. Máxima optimización de políticas a posteriori (MPO) [6] se utiliza para ajustar la función Q y la política según muestras de la repetición de la política. La política actualizada resultante se vuelve a sincronizar con el actor.

Ejecutamos SelMo en dos dominios robóticos de control continuo simulados: en un brazo JACO de 6 grados de libertad con una pinza de tres dedos y en un robot humanoide de 20 grados de libertad, el OP3. Las respectivas plataformas presentan entornos de aprendizaje desafiantes para la manipulación de objetos y la locomoción, respectivamente. Si bien solo optimizamos por curiosidad, observamos que en el transcurso de las ejecuciones de entrenamiento surge un comportamiento complejo interpretable por humanos. Por ejemplo, JACO aprende a recoger y mover cubos sin supervisión o el OP3 aprende a mantener el equilibrio sobre un solo pie o a sentarse de forma segura sin caerse.

Ejemplos de cronogramas de capacitación para JACO y el OP3. Mientras se optimiza para el objetivo de la curiosidad, surge un comportamiento complejo y significativo tanto en entornos de manipulación como de locomoción. Los vídeos completos se pueden encontrar en la parte superior de esta página.

Sin embargo, los impresionantes comportamientos observados durante la exploración curiosa tienen un inconveniente crucial: no son persistentes, ya que siguen cambiando con la función de recompensa de la curiosidad. A medida que el agente sigue repitiendo un determinado comportamiento, por ejemplo JACO levantando el cubo rojo, las recompensas de curiosidad acumuladas por esta política están disminuyendo. En consecuencia, esto conduce al aprendizaje de una política modificada que vuelve a adquirir mayores recompensas por la curiosidad, por ejemplo, mover el cubo fuera del espacio de trabajo o incluso atender al otro cubo. Pero este nuevo comportamiento sobrescribe el anterior. Sin embargo, creemos que retener los comportamientos emergentes de la exploración curiosa dota al agente de un valioso conjunto de habilidades para aprender nuevas tareas más rápidamente. Para investigar esta conjetura, organizamos un experimento para probar la utilidad de las habilidades autodescubiertas.

Tratamos instantáneas tomadas al azar de diferentes fases de la exploración curiosa como habilidades auxiliares en un marco de aprendizaje modular. [7] y medir qué tan rápido se puede aprender una nueva habilidad objetivo utilizando esos auxiliares. En el caso del brazo JACO, establecimos que la tarea objetivo fuera “levantar el cubo rojo” y utilizamos cinco comportamientos autodescubiertos muestreados al azar como auxiliares. Comparamos el aprendizaje de esta tarea posterior con una línea de base SAC-X [8] que utiliza un plan de estudios de funciones de recompensa para recompensar el alcance y el movimiento del cubo rojo, lo que en última instancia también facilita aprender a levantar objetos. Descubrimos que incluso esta configuración simple para la reutilización de habilidades ya acelera el progreso de aprendizaje de la tarea posterior en proporción con un plan de estudios de recompensa diseñado a mano. Los resultados sugieren que la identificación y retención automática de conductas emergentes útiles a partir de la exploración curiosa es una vía fructífera para futuras investigaciones en el aprendizaje por refuerzo no supervisado.