Dominar el Go, el ajedrez, el shogi y el Atari sin reglas

En 2016, presentamos AlfaGo, el primer programa de inteligencia artificial (IA) para derrotar a los humanos en el antiguo juego de Go. Dos años más tarde, su sucesor – alfacero – Aprendí desde cero a dominar Go, ajedrez y shogi. Ahora, en un artículo de la revista Nature, describimos MuZero, un importante paso adelante en la búsqueda de algoritmos de propósito general. MuZero domina el Go, el ajedrez, el shogi y el Atari sin necesidad de que le digan las reglas, gracias a su capacidad para planificar estrategias ganadoras en entornos desconocidos.

Durante muchos años, los investigadores han buscado métodos que puedan aprender un modelo que explique su entorno y luego utilizar ese modelo para planificar el mejor curso de acción. Hasta ahora, la mayoría de los enfoques han tenido dificultades para planificar de manera efectiva en dominios, como Atari, donde las reglas o dinámicas suelen ser desconocidas y complejas.

MuZero, presentado por primera vez en un documento preliminar en 2019, resuelve este problema aprendiendo un modelo que se centra solo en los aspectos más importantes del entorno para la planificación. Al combinar este modelo con la poderosa búsqueda de árbol anticipado de AlphaZero, MuZero estableció un nuevo resultado de vanguardia en el punto de referencia de Atari, al tiempo que igualó el desempeño de AlphaZero en los desafíos de planificación clásicos de Go, ajedrez y shogi. Al hacerlo, MuZero demuestra un importante avance en las capacidades de los algoritmos de aprendizaje por refuerzo.

Generalizando a modelos desconocidos

La capacidad de planificar es una parte importante de la inteligencia humana, ya que nos permite resolver problemas y tomar decisiones sobre el futuro. Por ejemplo, si vemos que se forman nubes oscuras, podríamos predecir que lloverá y decidir llevarnos un paraguas antes de aventurarnos a salir. Los humanos aprenden esta habilidad rápidamente y pueden generalizarla a nuevos escenarios, un rasgo que también nos gustaría que tuvieran nuestros algoritmos.

Los investigadores han intentado abordar este importante desafío de la IA utilizando dos enfoques principales: búsqueda anticipada o planificación basada en modelos.

Los sistemas que utilizan búsqueda anticipada, como AlphaZero, han logrado un éxito notable en juegos clásicos como las damas, el ajedrez y el póquer, pero dependen de que se les brinde conocimiento de la dinámica de su entorno, como las reglas del juego o un simulador preciso. Esto hace que sea difícil aplicarlos a problemas confusos del mundo real, que suelen ser complejos y difíciles de resumir en reglas simples.

Los sistemas basados ​​en modelos tienen como objetivo abordar este problema aprendiendo un modelo preciso de la dinámica de un entorno y luego usándolo para planificar. Sin embargo, la complejidad de modelar cada aspecto de un entorno ha significado que estos algoritmos no puedan competir en dominios visualmente ricos, como Atari. Hasta ahora, los mejores resultados en Atari se obtienen con sistemas sin modelos, como DQN, R2D2 y Agente57. Como sugiere el nombre, los algoritmos sin modelos no utilizan un modelo aprendido y, en cambio, estiman cuál es la mejor acción a tomar a continuación.

MuZero utiliza un enfoque diferente para superar las limitaciones de los enfoques anteriores. En lugar de intentar modelar todo el entorno, MuZero simplemente modela aspectos que son importantes para el proceso de toma de decisiones del agente. Después de todo, saber que un paraguas te mantendrá seco es más útil que modelar el patrón de las gotas de lluvia en el aire.

Específicamente, MuZero modela tres elementos del entorno que son críticos para la planificación:

  • El valor: ¿Qué tan buena es la posición actual?
  • El política: ¿Qué acción es la mejor a tomar?
  • El premio: ¿Qué tan buena fue la última acción?

Todo esto se aprende utilizando una red neuronal profunda y es todo lo que se necesita para que MuZero comprenda lo que sucede cuando realiza una determinada acción y planifique en consecuencia.

Ilustración de cómo se puede utilizar Monte Carlo Tree Search para planificar con las redes neuronales MuZero. Comenzando en la posición actual en el juego (tablero Go esquemático en la parte superior de la animación), MuZero usa la función de representación (h) para mapear desde la observación a una incrustación utilizada por la red neuronal (s0). Utilizando la función dinámica (g) y la función de predicción (f), MuZero puede considerar posibles secuencias futuras de acciones (a) y elegir la mejor acción.
MuZero utiliza la experiencia que recopila al interactuar con el entorno para entrenar su red neuronal. Esta experiencia incluye tanto observaciones y recompensas del entorno, como también los resultados de las búsquedas realizadas a la hora de decidir la mejor acción.
Durante el entrenamiento, el modelo se despliega junto con la experiencia recopilada, prediciendo en cada paso la información previamente guardada: la función de valor v predice la suma de las recompensas observadas (u), la estimación de la política (p) predice el resultado de la búsqueda anterior (π), la estimación de recompensa r predice la última recompensa observada (u).

Este enfoque conlleva otro beneficio importante: MuZero puede utilizar repetidamente su modelo aprendido para mejorar su planificación, en lugar de recopilar nuevos datos del entorno. Por ejemplo, en las pruebas de la suite Atari, esta variante, conocida como MuZero Reanalyze, utilizó el modelo aprendido el 90% del tiempo para volver a planificar lo que debería haberse hecho en episodios anteriores.

Rendimiento de MuZero

Elegimos cuatro dominios diferentes para probar las capacidades de MuZeros. Se utilizaron go, ajedrez y shogi para evaluar su desempeño en problemas de planificación desafiantes, mientras que usamos la suite Atari como punto de referencia para problemas visualmente más complejos. En todos los casos, MuZero estableció un nuevo estado del arte para los algoritmos de aprendizaje por refuerzo, superando a todos los algoritmos anteriores en la suite Atari e igualando el rendimiento sobrehumano de AlphaZero en Go, ajedrez y shogi.

Rendimiento en la suite Atari utilizando 200 millones o 20 mil millones de fotogramas por ejecución de entrenamiento. MuZero logra un nuevo estado del arte en ambos entornos. Todas las puntuaciones están normalizadas según el desempeño de los evaluadores humanos (100%), con los mejores resultados para cada configuración resaltados en negrita.

También probamos con más detalle qué tan bien MuZero puede planificar con su modelo aprendido. Comenzamos con el clásico desafío de planificación de precisión en Go, donde un solo movimiento puede significar la diferencia entre ganar y perder. Para confirmar la intuición de que planificar más debería conducir a mejores resultados, medimos cuánto más fuerte puede llegar a ser una versión totalmente entrenada de MuZero cuando se le da más tiempo para planificar cada movimiento (consulte el gráfico de la izquierda a continuación). Los resultados mostraron que la fuerza del juego aumenta en más de 1000 Elo (una medida de la habilidad relativa de un jugador) a medida que aumentamos el tiempo por movimiento de una décima de segundo a 50 segundos. Esto es similar a la diferencia entre un jugador aficionado fuerte y el jugador profesional más fuerte.

Izquierda: La fuerza del juego en Go aumenta significativamente a medida que aumenta el tiempo disponible para planificar cada movimiento. Observe cómo la escala de MuZero coincide casi perfectamente con la de AlphaZero, que tiene acceso a un simulador perfecto. Derecha: La puntuación en el juego de Atari Ms Pac-Man también aumenta con la cantidad de planificación por movimiento durante el entrenamiento. Cada gráfico muestra una ejecución de entrenamiento diferente en la que a MuZero se le permitió considerar un número diferente de simulaciones por movimiento.

Para comprobar si la planificación también aporta beneficios durante el entrenamiento, realizamos una serie de experimentos en el juego de Atari Ms Pac-Man (gráfico de la derecha arriba) utilizando instancias entrenadas separadas de MuZero. A cada uno se le permitió considerar un número diferente de simulaciones de planificación por movimiento, que van de cinco a 50. Los resultados confirmaron que aumentar la cantidad de planificación para cada movimiento permite a MuZero aprender más rápido y lograr un mejor rendimiento final.

Curiosamente, cuando a MuZero solo se le permitió considerar seis o siete simulaciones por movimiento (un número demasiado pequeño para cubrir todas las acciones disponibles en Ms Pac-Man), aún así logró un buen rendimiento. Esto sugiere que MuZero es capaz de generalizar entre acciones y situaciones, y no necesita buscar exhaustivamente todas las posibilidades para aprender de forma eficaz.

Nuevos horizontes

La capacidad de MuZero para aprender un modelo de su entorno y utilizarlo para planificar con éxito demuestra un avance significativo en el aprendizaje por refuerzo y la búsqueda de algoritmos de propósito general. Su predecesor, AlphaZero, ya se ha aplicado a una variedad de problemas complejos en química, física cuántica y más allá. Las ideas detrás de los poderosos algoritmos de aprendizaje y planificación de MuZero pueden allanar el camino para abordar nuevos desafíos en robótica, sistemas industriales y otros entornos desordenados del mundo real donde se desconocen las “reglas del juego”.

Enlaces relacionados: