La exploración impulsada por la curiosidad es el proceso activo de buscar nueva información para mejorar la comprensión del agente sobre su entorno. Supongamos que el agente ha aprendido un modelo del mundo que puede predecir eventos futuros dada la historia de eventos pasados. El agente impulsado por la curiosidad puede entonces utilizar el desajuste de predicción del modelo mundial como recompensa intrínseca por dirigir su política de exploración hacia la búsqueda de nueva información. De la siguiente manera, el agente puede utilizar esta nueva información para mejorar el modelo mundial y poder hacer mejores predicciones. Este proceso iterativo puede permitir al agente explorar eventualmente todas las novedades del mundo y utilizar esta información para construir un modelo mundial preciso.
Inspirado por los éxitos de arranca tu propio latente (BYOL) – que se ha aplicado en visión por computador, aprendizaje de representación gráficay aprendizaje de representación en RL – Proponemos BYOL-Explore: un agente de IA conceptualmente simple pero general, impulsado por la curiosidad, para resolver tareas de exploración difíciles. BYOL-Explore aprende una representación del mundo prediciendo su propia representación futura. Luego, utiliza el error de predicción a nivel de representación como recompensa intrínseca para entrenar una política impulsada por la curiosidad. Por lo tanto, BYOL-Explore aprende una representación mundial, la dinámica mundial y una política de exploración impulsada por la curiosidad, en conjunto, simplemente optimizando el error de predicción en el nivel de representación.
A pesar de la simplicidad de su diseño, cuando se aplica a la DM-DURO-8 Con un conjunto de desafiantes tareas de exploración tridimensionales, visualmente complejas y difíciles, BYOL-Explore supera a los métodos de exploración estándar impulsados por la curiosidad, como Destilación de red aleatoria (RND) y Módulo de Curiosidad Intrínseca (ICM), en términos de puntuación media normalizada en humanos (CHNS), medida en todas las tareas. Sorprendentemente, BYOL-Explore logró este rendimiento utilizando solo una única red entrenada simultáneamente en todas las tareas, mientras que el trabajo anterior se limitó a la configuración de una sola tarea y solo pudo lograr un progreso significativo en estas tareas cuando se le brindaron demostraciones de expertos humanos.
Como prueba más de su generalidad, BYOL-Explore logra un rendimiento sobrehumano en las diez exploraciones más difíciles. juegos de atariaunque tiene un diseño más simple que otros agentes competitivos, como Agente57 y Ir a explorar.
En el futuro, podemos generalizar BYOL-Explore a entornos altamente estocásticos aprendiendo un modelo mundial probabilístico que podría usarse para generar trayectorias de eventos futuros. Esto podría permitir al agente modelar la posible estocasticidad del medio ambiente, evitar trampas estocásticas y planificar la exploración.