Google Deepmind se enseñó a jugar Minecraft

Un sistema de inteligencia artificial (IA) ha descubierto por primera vez cómo recolectar diamantes en el videojuego muy popular Minecraft—Un tarea difícil que requiere múltiples pasos, sin que se muestre cómo jugar. Sus creadores dicen que el sistema, llamado Dreamer, es un paso hacia las máquinas que pueden generalizar el conocimiento aprender en un dominio a nuevas situaciones, un objetivo principal de la IA.

“Dreamer marca un paso significativo hacia los sistemas generales de IA”, dice Danijar Hafner, un científico informático de Google Deepmind en San Francisco, California. “Permite a la IA comprender su entorno físico y también que se supere con el tiempo, sin que un humano tenga que decirle exactamente qué hacer”. Hafner y sus colegas describen Soñador en un estudio en Naturaleza Publicado el 2 de abril.

En Minecraftlos jugadores exploran un mundo 3D virtual que contiene una variedad de terrenos, incluidos bosques, montañas, desiertos y pantanos. Los jugadores usan los recursos del mundo para crear objetos, como cofres, cercas y espadas, y recolectar elementos, entre los más apreciados de los cuales se encuentran los diamantes.


Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.


Es importante destacar que Hafner, no hay dos experiencias iguales. “Cada vez que juegas Minecraftes un mundo nuevo generado al azar “, dice. Esto hace que sea útil para desafiar un sistema de IA que los investigadores quieren poder generalizar de una situación a la siguiente.” Tienes que entender realmente qué está frente a ti; No puedes simplemente memorizar una estrategia específica ”, dice.

Recolectar un diamante es “una tarea muy difícil”, dice el informático Jeff Clune de la Universidad de Columbia Británica en Vancouver, Canadá, que formó parte de un equipo separado que entrenó un programa para Encuentra diamantes usando videos de reproducción humana. “No hay duda de que esto representa un gran paso adelante para el campo”.

Los diamantes son para siempre

AI Los investigadores se han centrado en encontrar diamantesdice Hafner, porque requiere una serie de pasos complicados, que incluyen encontrar árboles y descomponerlos para recolectar madera, que los jugadores pueden usar para construir una mesa de elaboración.

Esto, junto con más madera, se puede usar para hacer un pico de madera, y así sucesivamente, hasta que los jugadores hayan reunido las herramientas correctas para recolectar un diamante, que está enterrado bajo tierra. “Hay una larga cadena de estos hitos, por lo que requiere una exploración muy profunda”, dice.

Los intentos anteriores de hacer que los sistemas de IA recolecten diamantes en el uso de videos de juegos humanos o investigadores que lideran sistemas a través de los pasos.

Por el contrario, Dreamer explora todo sobre el juego por sí solo, utilizando una técnica de prueba y error llamada aprendizaje de refuerzo; identifica acciones que probablemente engenden las recompensas, las repitan y descartarán a otros. El aprendizaje de refuerzo sustenta algunos avances importantes en la IA. Pero los programas anteriores eran especialistas: no podían aplicar conocimiento en nuevos dominios desde cero.

Construirme un modelo mundial

La clave del éxito de Dreamer, dice Hafner, es que construye un modelo de su entorno y utiliza este ‘modelo mundial’ para ‘imaginar’ escenarios futuros y guiar la toma de decisiones. Más bien como nuestros propios pensamientos abstractos, el modelo mundial no es una réplica exacta de su entorno. Pero permite al agente de los soñadores probar las cosas y predecir las posibles recompensas de diferentes acciones usando menos cálculo de lo necesario para completar esas acciones en Minecraft. “El modelo mundial realmente equipa el sistema AI con la capacidad de imaginar el futuro”, dice Hafner.

Esta habilidad también podría ayudar a crear robots que puedan aprender a interactuar en el mundo real, donde los costos de prueba y error son mucho más altos que en un videojuego, dice Hafner.

Pruebas de Dreamer en el Diamond Challenge fue una ocurrencia tardía. “Construimos todo este algoritmo sin eso en mente”, dice Hafner. Pero se le ocurrió al equipo que era la forma ideal de probar si su algoritmo podría funcionar, fuera de la caja, en una tarea desconocida.

En Minecraftel equipo usó un protocolo que le dio a Dreamer una recompensa ‘más una’ cada vez que completaba uno de los 12 pasos progresivos involucrados en la colección de diamantes, incluida la creación de tablones y un horno, minería de hierro y forjando un pico de hierro.

Estas recompensas intermedias llevaron a Dreamer a seleccionar acciones que tenían más probabilidades de conducir a un diamante. El equipo restablece el juego cada 30 minutos para que Dreamer no se acostumbró a una configuración en particular, pero más bien aprendió reglas generales para obtener recompensas.

Bajo esta configuración, toma alrededor de nueve días de juego continuo para Dreamer encontrar al menos un diamante, dice Hafner. Los jugadores humanos expertos tomarán 20-30 minutos para encontrar un diamante, mientras que los novatos tardan más.

“Este documento se trata de capacitar a un solo algoritmo para funcionar bien en diversas tareas de aprendizaje de refuerzo”, dice el científico informático Keyon Vafa en la Universidad de Harvard en Boston, Massachusetts. “Este es un problema notoriamente difícil y los resultados son fantásticos”.

Un objetivo aún más grande para la IA, dice Clune, es el desafío final para Minecraft Jugadores: Matar al Dragón Ender, la criatura más temible del mundo virtual.

Este artículo se reproduce con permiso y fue Primero publicado el 2 de abril de 2025.