En 2016, presentamos AlfaGo, el primer programa de inteligencia artificial (IA) para derrotar a los humanos en el antiguo juego de Go. Dos años más tarde, su sucesor – alfacero – Aprendí desde cero a dominar Go, ajedrez y shogi. Ahora, en un artículo de la revista Nature, describimos MuZero, un importante paso adelante en la búsqueda de algoritmos de propósito general. MuZero domina el Go, el ajedrez, el shogi y el Atari sin necesidad de que le digan las reglas, gracias a su capacidad para planificar estrategias ganadoras en entornos desconocidos.
Durante muchos años, los investigadores han buscado métodos que puedan aprender un modelo que explique su entorno y luego utilizar ese modelo para planificar el mejor curso de acción. Hasta ahora, la mayoría de los enfoques han tenido dificultades para planificar de manera efectiva en dominios, como Atari, donde las reglas o dinámicas suelen ser desconocidas y complejas.
MuZero, presentado por primera vez en un documento preliminar en 2019, resuelve este problema aprendiendo un modelo que se centra solo en los aspectos más importantes del entorno para la planificación. Al combinar este modelo con la poderosa búsqueda de árbol anticipado de AlphaZero, MuZero estableció un nuevo resultado de vanguardia en el punto de referencia de Atari, al tiempo que igualó el desempeño de AlphaZero en los desafíos de planificación clásicos de Go, ajedrez y shogi. Al hacerlo, MuZero demuestra un importante avance en las capacidades de los algoritmos de aprendizaje por refuerzo.
Generalizando a modelos desconocidos
La capacidad de planificar es una parte importante de la inteligencia humana, ya que nos permite resolver problemas y tomar decisiones sobre el futuro. Por ejemplo, si vemos que se forman nubes oscuras, podríamos predecir que lloverá y decidir llevarnos un paraguas antes de aventurarnos a salir. Los humanos aprenden esta habilidad rápidamente y pueden generalizarla a nuevos escenarios, un rasgo que también nos gustaría que tuvieran nuestros algoritmos.
Los investigadores han intentado abordar este importante desafío de la IA utilizando dos enfoques principales: búsqueda anticipada o planificación basada en modelos.
Los sistemas que utilizan búsqueda anticipada, como AlphaZero, han logrado un éxito notable en juegos clásicos como las damas, el ajedrez y el póquer, pero dependen de que se les brinde conocimiento de la dinámica de su entorno, como las reglas del juego o un simulador preciso. Esto hace que sea difícil aplicarlos a problemas confusos del mundo real, que suelen ser complejos y difíciles de resumir en reglas simples.
Los sistemas basados en modelos tienen como objetivo abordar este problema aprendiendo un modelo preciso de la dinámica de un entorno y luego usándolo para planificar. Sin embargo, la complejidad de modelar cada aspecto de un entorno ha significado que estos algoritmos no puedan competir en dominios visualmente ricos, como Atari. Hasta ahora, los mejores resultados en Atari se obtienen con sistemas sin modelos, como DQN, R2D2 y Agente57. Como sugiere el nombre, los algoritmos sin modelos no utilizan un modelo aprendido y, en cambio, estiman cuál es la mejor acción a tomar a continuación.
MuZero utiliza un enfoque diferente para superar las limitaciones de los enfoques anteriores. En lugar de intentar modelar todo el entorno, MuZero simplemente modela aspectos que son importantes para el proceso de toma de decisiones del agente. Después de todo, saber que un paraguas te mantendrá seco es más útil que modelar el patrón de las gotas de lluvia en el aire.
Específicamente, MuZero modela tres elementos del entorno que son críticos para la planificación:
- El valor: ¿Qué tan buena es la posición actual?
- El política: ¿Qué acción es la mejor a tomar?
- El premio: ¿Qué tan buena fue la última acción?
Todo esto se aprende utilizando una red neuronal profunda y es todo lo que se necesita para que MuZero comprenda lo que sucede cuando realiza una determinada acción y planifique en consecuencia.
Este enfoque conlleva otro beneficio importante: MuZero puede utilizar repetidamente su modelo aprendido para mejorar su planificación, en lugar de recopilar nuevos datos del entorno. Por ejemplo, en las pruebas de la suite Atari, esta variante, conocida como MuZero Reanalyze, utilizó el modelo aprendido el 90% del tiempo para volver a planificar lo que debería haberse hecho en episodios anteriores.
Rendimiento de MuZero
Elegimos cuatro dominios diferentes para probar las capacidades de MuZeros. Se utilizaron go, ajedrez y shogi para evaluar su desempeño en problemas de planificación desafiantes, mientras que usamos la suite Atari como punto de referencia para problemas visualmente más complejos. En todos los casos, MuZero estableció un nuevo estado del arte para los algoritmos de aprendizaje por refuerzo, superando a todos los algoritmos anteriores en la suite Atari e igualando el rendimiento sobrehumano de AlphaZero en Go, ajedrez y shogi.
También probamos con más detalle qué tan bien MuZero puede planificar con su modelo aprendido. Comenzamos con el clásico desafío de planificación de precisión en Go, donde un solo movimiento puede significar la diferencia entre ganar y perder. Para confirmar la intuición de que planificar más debería conducir a mejores resultados, medimos cuánto más fuerte puede llegar a ser una versión totalmente entrenada de MuZero cuando se le da más tiempo para planificar cada movimiento (consulte el gráfico de la izquierda a continuación). Los resultados mostraron que la fuerza del juego aumenta en más de 1000 Elo (una medida de la habilidad relativa de un jugador) a medida que aumentamos el tiempo por movimiento de una décima de segundo a 50 segundos. Esto es similar a la diferencia entre un jugador aficionado fuerte y el jugador profesional más fuerte.
Para comprobar si la planificación también aporta beneficios durante el entrenamiento, realizamos una serie de experimentos en el juego de Atari Ms Pac-Man (gráfico de la derecha arriba) utilizando instancias entrenadas separadas de MuZero. A cada uno se le permitió considerar un número diferente de simulaciones de planificación por movimiento, que van de cinco a 50. Los resultados confirmaron que aumentar la cantidad de planificación para cada movimiento permite a MuZero aprender más rápido y lograr un mejor rendimiento final.
Curiosamente, cuando a MuZero solo se le permitió considerar seis o siete simulaciones por movimiento (un número demasiado pequeño para cubrir todas las acciones disponibles en Ms Pac-Man), aún así logró un buen rendimiento. Esto sugiere que MuZero es capaz de generalizar entre acciones y situaciones, y no necesita buscar exhaustivamente todas las posibilidades para aprender de forma eficaz.
Nuevos horizontes
La capacidad de MuZero para aprender un modelo de su entorno y utilizarlo para planificar con éxito demuestra un avance significativo en el aprendizaje por refuerzo y la búsqueda de algoritmos de propósito general. Su predecesor, AlphaZero, ya se ha aplicado a una variedad de problemas complejos en química, física cuántica y más allá. Las ideas detrás de los poderosos algoritmos de aprendizaje y planificación de MuZero pueden allanar el camino para abordar nuevos desafíos en robótica, sistemas industriales y otros entornos desordenados del mundo real donde se desconocen las “reglas del juego”.
Enlaces relacionados: