BYOL-Explore: exploración con predicción bootstrap

Vistas en segunda persona y de arriba hacia abajo de un agente BYOL-Explore resolviendo el nivel Thow-Across de DM-DURO-8mientras que la RL pura y otros métodos de exploración de referencia no logran ningún progreso en Thow-Across.

La exploración impulsada por la curiosidad es el proceso activo de buscar nueva información para mejorar la comprensión del agente sobre su entorno. Supongamos que el agente ha aprendido un modelo del mundo que puede predecir eventos futuros dada la historia de eventos pasados. El agente impulsado por la curiosidad puede entonces utilizar el desajuste de predicción del modelo mundial como recompensa intrínseca por dirigir su política de exploración hacia la búsqueda de nueva información. De la siguiente manera, el agente puede utilizar esta nueva información para mejorar el modelo mundial y poder hacer mejores predicciones. Este proceso iterativo puede permitir al agente explorar eventualmente todas las novedades del mundo y utilizar esta información para construir un modelo mundial preciso.

Inspirado por los éxitos de arranca tu propio latente (BYOL) – que se ha aplicado en visión por computador, aprendizaje de representación gráficay aprendizaje de representación en RL – Proponemos BYOL-Explore: un agente de IA conceptualmente simple pero general, impulsado por la curiosidad, para resolver tareas de exploración difíciles. BYOL-Explore aprende una representación del mundo prediciendo su propia representación futura. Luego, utiliza el error de predicción a nivel de representación como recompensa intrínseca para entrenar una política impulsada por la curiosidad. Por lo tanto, BYOL-Explore aprende una representación mundial, la dinámica mundial y una política de exploración impulsada por la curiosidad, en conjunto, simplemente optimizando el error de predicción en el nivel de representación.

Comparación entre BYOL-Explore, Destilación de red aleatoria (RDN), Módulo de Curiosidad Intrínseca (ICM) y RL puro (sin recompensa intrínseca), en términos de puntuación media normalizada en humanos (CHNS).

A pesar de la simplicidad de su diseño, cuando se aplica a la DM-DURO-8 Con un conjunto de desafiantes tareas de exploración tridimensionales, visualmente complejas y difíciles, BYOL-Explore supera a los métodos de exploración estándar impulsados por la curiosidad, como Destilación de red aleatoria (RND) y Módulo de Curiosidad Intrínseca (ICM), en términos de puntuación media normalizada en humanos (CHNS), medida en todas las tareas. Sorprendentemente, BYOL-Explore logró este rendimiento utilizando solo una única red entrenada simultáneamente en todas las tareas, mientras que el trabajo anterior se limitó a la configuración de una sola tarea y solo pudo lograr un progreso significativo en estas tareas cuando se le brindaron demostraciones de expertos humanos.

Como prueba más de su generalidad, BYOL-Explore logra un rendimiento sobrehumano en las diez exploraciones más difíciles. juegos de atariaunque tiene un diseño más simple que otros agentes competitivos, como Agente57 y Ir a explorar.

En el futuro, podemos generalizar BYOL-Explore a entornos altamente estocásticos aprendiendo un modelo mundial probabilístico que podría usarse para generar trayectorias de eventos futuros. Esto podría permitir al agente modelar la posible estocasticidad del medio ambiente, evitar trampas estocásticas y planificar la exploración.

BYOL-Explore: exploración con predicción bootstrap

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

Vicki Gunvalson ofrece información actualizada sobre su compromiso y matrimonio con Michael Smith

Conduzca más lento, ahorre dinero en gasolina. ¡Gracias Física!

Cómo las estadísticas se convierten en propaganda

Torrevieja lanza la campaña de compras de verano con más de 5.000€ en premios – The Leader