639713e75c02819bcea39c6d Twomovementtwoup.png

Los agentes cooperan mejor comunicándose y negociando, y sancionar las promesas incumplidas ayuda a mantenerlos honestos.

La comunicación y la cooperación exitosas han sido cruciales para ayudar a las sociedades a avanzar a lo largo de la historia. Los entornos cerrados de los juegos de mesa pueden servir como zona de pruebas para modelar e investigar la interacción y la comunicación, y podemos aprender mucho jugando en ellos. En nuestro artículo reciente, publicado hoy en Nature Communicationsmostramos cómo los agentes artificiales pueden utilizar la comunicación para cooperar mejor en el juego de mesa Diplomacy, un dominio vibrante en la investigación de la inteligencia artificial (IA), conocido por su enfoque en la construcción de alianzas.

La diplomacia es un desafío ya que tiene reglas simples pero una alta complejidad emergente debido a las fuertes interdependencias entre los jugadores y su inmenso espacio de acción. Para ayudar a resolver este desafío, diseñamos algoritmos de negociación que permiten a los agentes comunicarse y acordar planes conjuntos, permitiéndoles superar a los agentes que carecen de esta capacidad.

La cooperación es particularmente desafiante cuando no podemos confiar en que nuestros pares hagan lo que prometen. Usamos la diplomacia como zona de pruebas para explorar qué sucede cuando los agentes pueden desviarse de sus acuerdos anteriores. Nuestra investigación ilustra los riesgos que surgen cuando agentes complejos son capaces de tergiversar sus intenciones o engañar a otros con respecto a sus planes futuros, lo que lleva a otra gran pregunta: ¿Cuáles son las condiciones que promueven la comunicación confiable y el trabajo en equipo?

Mostramos que la estrategia de sancionar a pares que rompen contratos reduce drásticamente las ventajas que pueden obtener al abandonar sus compromisos, fomentando así una comunicación más honesta.

¿Qué es la diplomacia y por qué es importante?

Juegos como ajedrez, póker, IrY muchos Juegos de vídeo Siempre han sido un terreno fértil para la investigación de la IA. Diplomacia es un juego de negociación y formación de alianzas para siete jugadores, que se juega en un antiguo mapa de Europa dividido en provincias, donde cada jugador controla múltiples unidades (reglas de la diplomacia). En la versión estándar del juego, llamada Press Diplomacy, cada turno incluye una fase de negociación, después de la cual todos los jugadores revelan sus movimientos elegidos simultáneamente.

El corazón de la diplomacia es la fase de negociación, donde los jugadores intentan ponerse de acuerdo sobre sus próximos movimientos. Por ejemplo, una unidad puede apoyar a otra unidad, permitiéndole superar la resistencia de otras unidades, como se ilustra aquí:

Dos escenarios de movimiento.
Izquierda: dos unidades (una unidad Roja en Borgoña y una unidad Azul en Gascuña) intentan entrar en París. Como las unidades tienen la misma fuerza, ninguna de las dos lo logra.
Bien: la unidad Roja en Picardía apoya a la unidad Roja en Borgoña, dominando a la unidad Azul y permitiendo que la unidad Roja entre en Borgoña.

Los enfoques computacionales de la diplomacia se han investigado desde la década de 1980, muchos de los cuales se exploraron en una versión más simple del juego llamada No-Press Diplomacy, donde no se permite la comunicación estratégica entre jugadores. Los investigadores también han propuesto protocolos de negociación amigables con la computadoraa veces llamado «Prensa restringida».

¿Qué estudiamos?

Usamos la diplomacia como analogía de la negociación en el mundo real, proporcionando métodos para que los agentes de IA coordinen sus movimientos. Nosotros tomamos nuestros agentes de diplomacia que no se comunican y aumentarlos para jugar a la diplomacia con la comunicación dándoles un protocolo para negociar contratos para un plan de acción conjunto. A estos agentes aumentados los llamamos negociadores básicos y están sujetos a sus acuerdos.

Contratos de diplomacia.
Izquierda: una restricción que permite que el jugador Rojo solo realice ciertas acciones (no puede moverse del Ruhr a Borgoña, y debe moverse del Piamonte a Marsella).
Bien: Un contrato entre los jugadores Rojo y Verde, que impone restricciones a ambas partes.

Consideramos dos protocolos: el Protocolo de Propuesta Mutua y el Protocolo de Proponer-Elegir, discutidos en detalle en el documento completo. Nuestros agentes aplican algoritmos que identifican acuerdos mutuamente beneficiosos simulando cómo podría desarrollarse el juego bajo varios contratos. Usamos el Solución de negociación de Nash de teoría de juego como base de principios para identificar acuerdos de alta calidad. El juego puede desarrollarse de muchas maneras dependiendo de las acciones de los jugadores, por lo que nuestros agentes utilizan simulaciones de Montecarlo para ver qué podría suceder en el siguiente turno.

Simulando los siguientes estados dado un contrato acordado. Izquierda: estado actual de una parte del tablero, incluido un contrato acordado entre los jugadores Rojo y Verde. Derecha: múltiples estados siguientes posibles.

Nuestros experimentos muestran que nuestro mecanismo de negociación permite a los negociadores básicos superar significativamente a los agentes básicos que no se comunican.

Los negociadores de referencia superan significativamente a los agentes que no se comunican. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El protocolo proponer-elegir. La “ventaja del negociador” es la relación entre las tasas de ganancia entre los agentes que se comunican y los que no se comunican.

Agentes rompiendo acuerdos

En Diplomacia, los acuerdos alcanzados durante la negociación no son vinculantes (la comunicación es «charla barata‘). Pero ¿qué sucede cuando los agentes que aceptan un contrato en un turno se desvían del mismo en el siguiente? En muchos entornos de la vida real, las personas aceptan actuar de cierta manera, pero luego no cumplen con sus compromisos. Para permitir la cooperación entre agentes de IA, o entre agentes y humanos, debemos examinar el peligro potencial de que los agentes rompan estratégicamente sus acuerdos y las formas de remediar este problema. Usamos la Diplomacia para estudiar cómo la capacidad de abandonar nuestros compromisos erosiona la confianza y la cooperación, e identificar condiciones que fomenten una cooperación honesta.

Por eso consideramos a los agentes desviadores, que superan a los negociadores básicos honestos al desviarse de los contratos acordados. Los Desviadores Simples simplemente “olvidan” que aceptaron un contrato y se mueven como desean. Los desviadores condicionales son más sofisticados y optimizan sus acciones asumiendo que otros jugadores que aceptaron un contrato actuarán de acuerdo con él.

Todo tipo de nuestros Agentes Comunicadores. Bajo los términos de agrupación verdes, cada bloque azul representa un algoritmo de agente específico.

Mostramos que los desviadores simples y condicionales superan significativamente a los negociadores de referencia, mientras que los desviadores condicionales lo hacen de manera abrumadora.

Agentes desviadores versus agentes negociadores de referencia. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El protocolo proponer-elegir. La “ventaja del desviador” es la proporción de tasas de victoria entre los agentes desviadores sobre los negociadores de referencia.

Alentar a los agentes a ser honestos

A continuación abordamos el problema de las desviaciones utilizando agentes defensivos, que responden negativamente a las desviaciones. Investigamos a los Negociadores Binarios, que simplemente cortan las comunicaciones con los agentes que rompen un acuerdo con ellos. Pero rechazar es una reacción leve, por lo que también desarrollamos agentes sancionadores, que no toman la traición a la ligera, sino que modifican sus objetivos para intentar activamente reducir el valor del desviador: ¡un oponente con rencor! Mostramos que ambos tipos de Agentes Defensivos reducen la ventaja de la desviación, particularmente los Agentes Sancionadores.

Agentes no desviadores (negociadores de referencia, negociadores binarios y agentes sancionadores) que juegan contra desviadores condicionales. Izquierda: Protocolo de Propuesta Mutua. Derecha: Proponer-Elegir Protocolo. Los valores de “ventaja del desviador” inferiores a 1 indican que un agente defensivo supera a un agente desviador. Una población de Negociadores Binarios (azul) reduce la ventaja de los Desviadores en comparación con una población de Negociadores Base (gris).

Finalmente, presentamos a los desviadores aprendidos, que adaptan y optimizan su comportamiento contra los agentes sancionadores en múltiples juegos, tratando de hacer que las defensas anteriores sean menos efectivas. Un desviador aprendido sólo romperá un contrato cuando las ganancias inmediatas de la desviación sean lo suficientemente altas y la capacidad del otro agente para tomar represalias sea lo suficientemente baja. En la práctica, los desviadores eruditos ocasionalmente rompen contratos al final del juego y, al hacerlo, logran una ligera ventaja sobre los agentes sancionadores. Sin embargo, tales sanciones llevan al Desviador Erudito a cumplir más del 99,7% de sus contratos.

También examinamos las posibles dinámicas de aprendizaje de las sanciones y las desviaciones: qué sucede cuando los agentes sancionadores también pueden desviarse de los contratos y el incentivo potencial para dejar de sancionar cuando este comportamiento es costoso. Estos problemas pueden erosionar gradualmente la cooperación, por lo que pueden ser necesarios mecanismos adicionales, como repetir la interacción en múltiples juegos o utilizar sistemas de confianza y reputación.

Nuestro artículo deja muchas preguntas abiertas para futuras investigaciones: ¿Es posible diseñar protocolos más sofisticados para fomentar un comportamiento aún más honesto? ¿Cómo se podría manejar la combinación de técnicas de comunicación e información imperfecta? Finalmente, ¿qué otros mecanismos podrían disuadir la ruptura de acuerdos? Construir sistemas de IA justos, transparentes y confiables es un tema extremadamente importante y una parte clave de la misión de DeepMind. Estudiar estas preguntas en entornos de pruebas como Diplomacia nos ayuda a comprender mejor las tensiones entre cooperación y competencia que podrían existir en el mundo real. En última instancia, creemos que abordar estos desafíos nos permite comprender mejor cómo desarrollar sistemas de IA en línea con los valores y prioridades de la sociedad.

Lea nuestro artículo completo aquí.