Enseñar a la IA a jugar juegos de mesa. Usando el aprendizaje por refuerzo de… | de Heiko Hotz

Uso del aprendizaje por refuerzo desde cero para enseñarle a una computadora a jugar Tic-Tac-Toe

Parece que todos en el sector de la IA están perfeccionando sus habilidades de aprendizaje por refuerzo (RL), especialmente en Q-learning, tras los recientes rumores sobre el nuevo modelo de IA de OpenAI. P* y yo también me uno. Sin embargo, en lugar de especular sobre P* o revisando artículos y ejemplos antiguos de Q-learning, he decidido utilizar mi entusiasmo por los juegos de mesa para dar una introducción a Q-learning 🤓

En esta publicación de blog, crearé un programa simple desde cero para enseñarle a un modelo cómo jugar Tic-Tac-Toe (TTT). Me abstendré de utilizar bibliotecas RL como Gimnasia o Líneas de base estables; todo está codificado a mano en Python nativo y el script tiene solo 100 líneas. Si tienes curiosidad sobre cómo instruir a una IA para que juegue, sigue leyendo.

Puedes encontrar todo el código en GitHub en https://github.com/marshmellow77/tictactoe-q.

Enseñar a una IA a jugar al Tic-Tac-Toe (TTT) puede no parecer tan importante. Sin embargo, proporciona una introducción (con suerte) clara y comprensible a Q-learning y RL, lo que podría ser importante en el campo de la IA generativa (GenAI), ya que se ha especulado que los modelos GenAI independientes, como GPT-4 , son insuficientes para avances significativos. Están limitados por el hecho de que sólo pueden predecir el siguiente token y no pueden razonar en absoluto. Se cree que RL puede abordar este problema y potencialmente mejorar las respuestas de los modelos GenAI.

Pero ya sea que su objetivo sea repasar sus habilidades de RL anticipándose a estos avances, o simplemente esté buscando una introducción interesante al Q-learning, este tutorial está diseñado para ambos escenarios 🤗

En esencia, Q-learning es un algoritmo que aprende el valor de una acción en un estado particular y luego utiliza esta información para encontrar la mejor acción. Consideremos el ejemplo de la Lago congelado game, un popular juego para un solo jugador que se utiliza para demostrar Q-learning.

Enseñar a la IA a jugar juegos de mesa. Usando el aprendizaje por refuerzo de… | de Heiko Hotz | diciembre de 2023

ByEquipo de 7 minutos

Uso del aprendizaje por refuerzo desde cero para enseñarle a una computadora a jugar Tic-Tac-Toe

By Equipo de 7 minutos

Related Post

Creación de un cocientífico QSAR de bosque aleatorio dividido en andamios para el descubrimiento de inhibidores de EGFR utilizando ChEMBL, RDKit, SHAP y BRICS

Jesse Thaler nombrado director del Laboratorio de Ciencias Nucleares | Noticias del MIT

Protocolo de contexto modelo explicado en 3 niveles de dificultad

You missed

El futuro desigual de la IA ya puede ser visible en las calles de Hanoi

Multas de hasta 2.500 euros

El telescopio espacial James Webb celebra su cuarto cumpleaños con una impresionante imagen del lugar del accidente de una galaxia

¿Ken Paxton estuvo en Londres el 4 de julio?