Eche un vistazo a este nuevo sistema de inteligencia artificial llamado Student of Games (SoG) que es capaz de vencer a humanos en una variedad de juegos y aprender a jugar otros nuevos.

Existe una larga tradición de utilizar juegos como indicadores de rendimiento de la IA. Los enfoques basados ​​en la búsqueda y el aprendizaje funcionaron bien en varios juegos de información perfecta, mientras que los métodos basados ​​en la teoría de juegos funcionaron bien en algunas variaciones del póquer de información imperfecta. Al combinar búsqueda dirigida, aprendizaje autónomo y razonamiento teórico de juegos, los investigadores de inteligencia artificial de EquiLibre Technologies, Sony AI, Amii y Midjourney, en colaboración con el proyecto DeepMind de Google, proponen Student of Games, un algoritmo de propósito general que unifica esfuerzos anteriores. . Con su alto rendimiento empírico en grandes juegos de información perfecta e imperfecta, Student of Games es un paso significativo hacia el desarrollo de algoritmos universales aplicables en cualquier entorno. Con un poder computacional y de aproximación cada vez mayor, demuestran que Student of Games es robusto y, finalmente, logra un juego impecable. Student of Games tiene un gran desempeño en ajedrez y Go, vence al agente más fuerte disponible abiertamente en el póquer Texas Hold’em mano a mano sin límite y derrota al agente de última generación en Scotland Yard. Este juego de información imperfecta ilustra el valor de la búsqueda guiada, el aprendizaje y el razonamiento de la teoría de juegos.

Para demostrar hasta qué punto ha progresado la inteligencia artificial, se enseñó a una computadora a jugar un juego de mesa y luego se mejoró hasta el punto de que podía vencer a los humanos en el juego. Con este último estudio, el equipo ha logrado avances significativos hacia la creación de inteligencia artificial general, donde una computadora puede realizar tareas que antes se consideraban imposibles para una máquina.

La mayoría de las computadoras para juegos de mesa han sido diseñadas para jugar un solo juego, como el ajedrez. Al diseñar y construir tales sistemas, los científicos han creado una forma de inteligencia artificial restringida. Los investigadores detrás de este nuevo proyecto han desarrollado un sistema inteligente que puede competir en juegos que requieren una amplia gama de habilidades.

¿Qué es SoG – “Estudiante de Juegos”?

Al combinar búsqueda, aprendizaje y análisis de teoría de juegos en un solo algoritmo, SoG tiene muchas aplicaciones prácticas. SoG comprende una técnica GT-CFR para aprender CVPN y reproducción automática de sonido. En particular, SoG es un algoritmo confiable para juegos de información óptima y subóptima: se garantiza que SoG generará una mejor aproximación de las técnicas minimax-óptimas a medida que mejoren los recursos de la computadora. Este descubrimiento también se demuestra empíricamente en el póquer Leduc, donde la búsqueda adicional conduce a un refinamiento de la aproximación en el tiempo de prueba, a diferencia de cualquier sistema RL puro que no utilice búsqueda.

¿Por qué el SoG es tan eficaz?

SoG emplea una técnica llamada minimización de arrepentimiento contrafactual de árbol en crecimiento (GT-CFR), que es una forma de búsqueda local que se puede realizar en cualquier momento e implica la construcción no uniforme de subjuegos para aumentar el peso de los subjuegos con los que se juega. Los estados futuros más importantes están asociados. Además, SoG emplea una técnica de aprendizaje llamada autojuego sonoro, que entrena redes de valores y políticas basadas en resultados de juegos y subbúsquedas recursivas aplicadas a escenarios descubiertos en búsquedas anteriores. Como un paso importante hacia algoritmos universales que se pueden aprender en cualquier situación, SoG muestra un buen rendimiento en múltiples dominios de problemas con información perfecta e imperfecta. En los juegos de información inferiores, las aplicaciones de búsqueda estándar se enfrentan a problemas bien conocidos.

Resumen de algoritmos

El método SoG utiliza una reproducción automática acústica para instruir al agente: al tomar una decisión, cada jugador utiliza una búsqueda GT-CFR bien ajustada junto con un CVPN para producir una política para el estado actual, que luego se utiliza para muestrear una acción. aleatoriamente. GT-CFR es un proceso de dos etapas que comienza con el estado público actual y termina con un árbol maduro. El CFR del árbol público actual se actualiza durante la fase de actualización de arrepentimiento. Durante la fase de expansión, se agregan nuevas formas generales al árbol utilizando trayectorias de expansión basadas en simulación. Las iteraciones del GT-CFR comprenden una ejecución de la fase de actualización de arrepentimiento y una ejecución de la fase de expansión.

Los datos de entrenamiento para las redes de valor y políticas se generan a lo largo del proceso de autojuego: consultas de búsqueda (estados de creencias públicas consultados por el CVPN durante la fase de actualización de arrepentimiento del GT-CFR) y trayectorias del juego completo. Las consultas de búsqueda deben resolverse para actualizar la red de valor en función de objetivos de valor contrafactuales. La red de políticas se puede ajustar a objetivos derivados de las trayectorias del juego completo. Los actores crean los datos de su juego (y responden consultas) mientras los entrenadores descubren e implementan nuevas redes y ocasionalmente actualizan a los actores.

Algunas limitaciones

  • El uso de abstracciones de apuestas en el póquer podría abandonarse en favor de una política genérica de reducción de acciones para amplios espacios de acción.
  • Un modelo generativo que muestree los estados del mundo y funcione en el subconjunto muestreado podría aproximarse al SoG, que actualmente requiere enumerar la información de cada estado público, lo que puede resultar prohibitivamente costoso en algunos juegos.
  • Un buen desempeño en dominios desafiantes a menudo requiere una gran cantidad de recursos computacionales; Una pregunta intrigante es si este nivel de desempeño se puede alcanzar con menos recursos.

El equipo de investigación cree que tiene potencial para prosperar en otros tipos de juegos debido a su capacidad de aprender por sí mismo a jugar casi cualquier juego, y ya ha vencido a sistemas de inteligencia artificial rivales y a humanos en Go, ajedrez, Scotland Yard y Texas Hold. Son póquer.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.