No cambiaré a menos que lo hagas

En Teoría de juegos¿Cómo pueden los jugadores llegar a su fin si aún podría haber una mejor opción para decidir? Quizás un jugador todavía quiera cambiar su decisión. Pero si lo hacen, tal vez el otro jugador también quiera cambiar. ¿Cómo pueden esperar escapar de este círculo vicioso? Para resolver este problema, el concepto de un equilibrio de Nash, que explicaré en este artículo, es fundamental para la teoría de juegos.

Este artículo es la segunda parte de una serie de cuatro capítulos sobre teoría de juegos. Si no has revisado el primer capítulo Sin embargo, te animo a que hagas eso para familiarizarte con los términos y conceptos principales de la teoría de juegos. Si lo hiciste, estás preparado para los próximos pasos de nuestro viaje a través de la teoría del juego. ¡Vamos!

Encontrar la solución

Encontrar una solución a un juego en la teoría del juego a veces puede ser complicado. Foto Mel Poole en Sin estelares

Ahora intentaremos encontrar una solución para un juego en la teoría del juego. A solución es un conjunto de acciones, donde cada jugador Maximiza su utilidad y por lo tanto se comporta racionalmente. Eso no necesariamente significa que cada jugador gana el juego, sino que hace lo mejor que pueden hacer, dado que no saben qué harán los otros jugadores. Consideremos el siguiente juego:

Si no está familiarizado con esta nota de matriz, es posible que desee echar un vistazo al Capítulo 1 y actualizar su memoria. ¿Recuerdas que esta matriz te da la recompensa para cada jugador dado un par específico de acciones? Por ejemplo, si el Jugador 1 elige la Acción Y y el Jugador 2 elige la Acción B, el Jugador 1 obtendrá una recompensa de 1 y el Jugador 2 obtendrá una recompensa de 3.

Bien, ¿qué acciones deberían decidir los jugadores por ahora? El jugador 1 no sabe qué hará el jugador 2, pero aún pueden tratar de averiguar cuál sería la mejor acción dependiendo de la elección del jugador 2. Si comparamos las utilidades de las acciones Y y Z (indicadas por los cuadros azules y rojos en la siguiente figura), notamos algo interesante: si el jugador 2 elige la acción A (primera columna de la matriz), el jugador 1 obtendrá una recompensa de 3, si eligen la acción y y una recompensa de 2, si eligen la acción z, por lo que la acción es mejor en ese caso. Pero, ¿qué sucede, si el jugador 2 decide la acción B (segunda columna)? En ese caso, la acción y da una recompensa de 1 y la acción z da una recompensa de 0, por lo que Y es mejor que Z nuevamente. Y si el Jugador 2 elige Action C (tercera columna), Y es aún mejor que Z (recompensa de 2 vs. Recompensa de 1). Eso significa que ese jugador 1 nunca debe usar la Acción Z, porque la acción Y siempre es mejor.

Comparamos las recompensas para el Jugador 1 para las acciones Y y Z.

Con las consideraciones antes mencionadas, el Jugador 2 puede anticipar que el Jugador 1 nunca usaría la Acción Z y, por lo tanto, el Jugador 2 no tiene que preocuparse por las recompensas que pertenecen a la acción Z. Esto hace que el juego sea mucho más pequeño, porque ahora solo quedan dos opciones para el Jugador 1, y esto también ayuda al Jugador 2 a decidir por su acción.

Descubrimos que para el Jugador 1 Y siempre es mejor que Z, por lo que ya no consideramos Z.

Si observamos el juego truncado, vemos que para el Jugador 2, la opción B siempre es mejor que la acción A. Si el Jugador 1 elige X, la acción B (con una recompensa de 2) es mejor que la opción A (con una recompensa de 1), y lo mismo se aplica si el Jugador 1 elige Action Y. Tenga en cuenta que este no sería el caso si la Acción Z todavía estaba en el juego. Sin embargo, ya vimos que la acción z nunca será jugada por el jugador 1 de todos modos.

Comparamos las recompensas para el Jugador 2 por las acciones A y B.

Como consecuencia, el jugador 2 nunca usaría la acción A. Ahora si el jugador 1 anticipa que el jugador 2 nunca usa la acción A, el juego se vuelve más pequeño nuevamente y se deben considerar menos opciones.

Vimos que para el jugador 2 Action B siempre es mejor que la acción A, por lo que ya no tenemos que considerar A.

Podemos continuar fácilmente de una manera igualmente y ver que para el jugador 1, X ahora siempre es mejor que y (2> 1 y 4> 2). Finalmente, si el Jugador 1 elige la Acción A, el Jugador 2 elegirá la Acción B, que es mejor que C (2> 0). Al final, solo quedan la Acción X (para el Jugador 1) y B (para el Jugador 2). Esa es la solución de nuestro juego:

Al final, solo queda una opción, a saber, el Jugador 1 usando X y Jugador 2 usando B.

Sería racional que el Jugador 1 elija Acción X y para que el Jugador 2 elija Acción B. Tenga en cuenta que llegamos a esa conclusión sin exactamente conocimiento Lo que haría el otro jugador. Simplemente anticipamos que algunas acciones nunca se tomarían, porque siempre son peores que otras acciones. Tales acciones se llaman estrictamente dominado. Por ejemplo, la acción z está estrictamente dominada por la acción Y, porque Y siempre es mejor que Z.

La mejor respuesta

Tales acciones estrictamente dominadas no siempre existen, pero hay un concepto similar que es importante para nosotros y se llama La mejor respuesta. Digamos que sabemos qué acción elige el otro jugador. En ese caso, decidir sobre una acción se vuelve muy fácil: solo tomamos la acción que tiene la mayor recompensa. Si el jugador 1 supiera que el jugador 2 eligió la opción A, la mejor respuesta para el jugador 1 sería Y, porque Y tiene la mayor recompensa en esa columna. ¿Ves cómo siempre buscamos las mejores respuestas antes? Para cada posible acción del otro jugador buscamos la mejor respuesta, si el otro jugador eligió esa acción. Más formalmente, la mejor respuesta del jugador I a un conjunto dado de acciones de todos los demás jugadores es la acción del Jugador 1 que maximiza la utilidad dadas las acciones de los otros jugadores. También tenga en cuenta que una acción estrictamente dominada nunca puede ser una mejor respuesta.

Volvamos a un juego que presentamos en el primer capítulo: el dilema de los prisioneros. ¿Cuáles son las mejores respuestas aquí?

¿Cómo debería decidir el Jugador 1, si el Jugador 2 confiesa o niega? Si el Jugador 2 confiesa, el Jugador 1 también debería confesar, porque una recompensa de -3 es mejor que una recompensa de -6. ¿Y qué sucede si el jugador 2 niega? En ese caso, confesar es mejor nuevamente, porque daría una recompensa de 0, que es mejor que una recompensa de -1 por negar. Eso significa que para el Jugador 1 confesar es la mejor respuesta para ambas acciones del Jugador 2. El jugador 1 no tiene que preocuparse por las acciones del otro jugador, pero siempre debe confesar. Debido a la simetría del juego, lo mismo se aplica al Jugador 2. Para ellos, confesar también es la mejor respuesta, sin importar lo que haga el jugador 1.

El equilibrio de Nash

Si todos los jugadores juegan su mejor respuesta, hemos llegado a una solución del juego que se llama Equilibrio de nash. Este es un concepto clave en la teoría del juego, debido a una propiedad importante: en un equilibrio de Nash, ningún jugador tiene ninguna razón para cambiar su acción, A menos que cualquier otro jugador lo haga. Eso significa que todos los jugadores están tan felices como pueden estar en la situación y no cambiarían, incluso si pudieran. Considere el dilema del prisionero desde arriba: el equilibrio de Nash se alcanza cuando ambos confiesan. En este caso, ningún jugador cambiaría su acción sin el otro. Podrían mejorar si ambos Cambiaron su acción y decidieron negar, pero como no pueden comunicarse, no esperan ningún cambio del otro jugador y, por lo tanto, tampoco se cambian.

Puede preguntarse si siempre hay un solo equilibrio de Nash para cada juego. Déjame decirte que también puede haber múltiples, como en el juego Bach vs. Stravinsky que ya conocimos en Capítulo 1:

Este juego tiene dos equilibrios de Nash: (Bach, Bach) y (Stravinsky, Stravinsky). En ambos escenarios, puede imaginar fácilmente que no hay razón para que ningún jugador cambie su acción de forma aislada. Si te sientas en el concierto de Bach con tu amigo, no dejarás tu asiento para ir solo al Concierto de Stravinsky, incluso si favoreces a Stravinsky sobre Bach. De manera similar, el fanático de Bach no se iría del concierto de Stravinsky si eso significara dejar a su amigo solo. Sin embargo, en los dos escenarios restantes, pensarías de manera diferente: si estuvieras solo en el concierto de Stravinsky, querrás salir y unirte a tu amigo en el Concierto de Bach. Es decir, cambiarías tu acción incluso si el otro jugador no cambia la suya. Esto te dice que el escenario en el que has estado fue no Un equilibrio de Nash.

Sin embargo, también puede haber juegos que no tienen equilibrio de Nash en absoluto. Imagina que eres un portero de fútbol durante un tiro de penalización. Para simplificar, suponemos que puede saltar hacia la izquierda o hacia la derecha. El jugador de fútbol del equipo contrario también puede disparar en la esquina izquierda o derecha, y suponemos que atrapas la pelota si decides por la misma esquina que ellos y que no la atrapas si decides por las esquinas opuestas. Podemos mostrar este juego de la siguiente manera:

No encontrará ningún equilibrio de Nash aquí. Cada escenario tiene un ganador claro (recompensa 1) y un claro perdedor (recompensa -1), y por lo tanto, uno de los jugadores siempre querrá cambiar. Si saltas hacia la derecha y atrapa la pelota, tu oponente deseará cambiar a la esquina izquierda. Pero luego, nuevamente querrá cambiar su decisión, lo que hará que su oponente elija la otra esquina nuevamente, etc.

Resumen

Aprendimos sobre encontrar un punto de equilibrio, donde ya nadie quiere cambiar. Ese es un equilibrio de Nash. Foto Eran Menashri en Sin estelares

Este capítulo mostró cómo encontrar soluciones para los juegos utilizando el concepto de un equilibrio de Nash. Resumamos lo que hemos aprendido hasta ahora:

Una solución de un juego en la teoría del juego maximiza la utilidad o recompensa de cada jugador.
Se llama una acción estrictamente dominado Si hay otra acción que siempre es mejor. En este caso, sería irracional jugar la acción estrictamente dominada.
La acción que produce la mayor recompensa dadas las acciones tomadas por los otros jugadores se llama mejor respuesta.
A Equilibrio de nash es un estado en el que cada jugador juega su mejor respuesta.
En un equilibrio de Nash, ningún jugador quiere cambiar su acción a menos que cualquier otra jugada lo haga. En ese sentido, los equilibrios NASH son estados óptimos.
Algunos juegos tienen múltiple Equilibrios de Nash y algunos juegos tienen ninguno.

Si te entristeciera el hecho de que no hay un equilibrio de Nash en algunos juegos, ¡no te desesperes! En el próximo capítulo, introduciremos probabilidades de acciones y esto nos permitirá encontrar más equilibrios. ¡Manténganse al tanto!

Referencias

Los temas introducidos aquí generalmente se cubren en libros de texto estándar sobre la teoría de juegos. Sin embargo, utilicé principalmente este, que está escrito en alemán:

Bartholomae, F. y Wiens, M. (2016). Spieltheorie. Ein anwendungsorientiertes lehrbuch. Wiesbaden: Springer Fachmedien Wiesbaden.

Una alternativa en inglés podría ser esta:

Espinola-Arredondo, A., y Muñoz-García, F. (2023). Teoría del juego: una introducción con ejemplos paso a paso. Naturaleza de Springer.

La teoría del juego es un campo de investigación bastante joven, con el primer libro de texto principal este:

Von Neumann, J. y Morgenstern, O. (1944). Teoría de los juegos y comportamiento económico.

¿Te gusta este artículo? Sígueme ser notificado de mis futuras publicaciones.

No cambiaré a menos que lo hagas

ByEquipo de 7 minutos

Encontrar la solución

La mejor respuesta

El equilibrio de Nash

Resumen

Referencias

By Equipo de 7 minutos

Related Post

Google lanza Gemini 3.5 Live Translate, un modelo de transmisión de audio de voz a voz que cubre más de 70 idiomas en Meet, Translate y Live API

Las consecuencias de depender de la IA para obtener noticias precisas | Noticias del MIT

Uso de Scikit-LLM con LLM de código abierto

You missed

Calificación AAA de Liechtenstein confirmada por S&P

Hermano del primer ministro español recibirá veredicto en juicio por corrupción

Diamond Brown llama a Chris Brown un “papá IG”, mensajes de texto (FOTOS)

Google lanza Gemini 3.5 Live Translate, un modelo de transmisión de audio de voz a voz que cubre más de 70 idiomas en Meet, Translate y Live API