La normatividad espuria mejora el aprendizaje del comportamiento de cumplimiento y aplicación de la ley en agentes artificiales

En nuestro artículo reciente Exploramos cómo el aprendizaje por refuerzo profundo de múltiples agentes puede servir como modelo de interacciones sociales complejas, como la formación de normas sociales. Esta nueva clase de modelos podría proporcionar un camino para crear simulaciones del mundo más ricas y detalladas.

Los humanos somos un especies ultrasociales. En comparación con otros mamíferos, nos beneficiamos más de la cooperación, pero también somos más dependientes de ella y enfrentamos mayores desafíos de cooperación. Hoy en día, la humanidad enfrenta numerosos desafíos de cooperación, entre ellos prevenir conflictos por los recursos, garantizar que todos puedan acceder a aire limpio y agua potable, eliminar la pobreza extrema y combatir el cambio climático. Muchos de los problemas de cooperación que enfrentamos son difíciles de resolver porque involucran complejas redes de interacciones sociales y biofísicas llamadas sistemas socio-ecológicos. Sin embargo, los humanos podemos aprender colectivamente a superar los desafíos de cooperación que enfrentamos. Logramos esto mediante una cultura en constante evolución, que incluye normas e instituciones que organizan nuestras interacciones con el medio ambiente y entre nosotros.

Sin embargo, las normas e instituciones a veces no logran resolver los desafíos de la cooperación. Por ejemplo, los individuos pueden sobreexplotar recursos como los bosques y la pesca, provocando así su colapso. En tales casos, los formuladores de políticas pueden redactar leyes para cambiar las reglas institucionales o desarrollar otras Intervenciones para intentar cambiar las normas. con la esperanza de lograr un cambio positivo. Pero las intervenciones políticas no siempre funcionan como se esperaba. Esto se debe a que los sistemas socioecológicos del mundo real son considerablemente mas complejo que los modelos que normalmente utilizamos para intentar predecir los efectos de las políticas candidatas.

Los modelos basados ​​en la teoría de juegos suelen aplicarse al estudio de la evolución cultural. En la mayoría de estos modelos, las interacciones clave que los agentes tienen entre sí se expresan en una “matriz de pagos”. En un juego con dos participantes y dos acciones A y B, una matriz de pagos define el valor de los cuatro resultados posibles: (1) ambos elegimos A, (2) ambos elegimos B, (3) yo elijo A mientras tú eliges B y (4) yo elijo B mientras tú eliges A. El ejemplo más famoso es el ‘Dilema del Prisionero’, en el que las acciones se interpretan como “cooperar” y “defectar”. Los agentes racionales que actúan según su propio interés miope están condenados a desertar del dilema del prisionero, incluso aunque esté disponible el mejor resultado de la cooperación mutua.

Los modelos de teoría de juegos se han aplicado ampliamente. Investigadores de diversos campos los han utilizado para estudiar una amplia gama de fenómenos diferentes, incluidas las economías y la evolución de la cultura humana. Sin embargo, la teoría de juegos no es una herramienta neutral, sino más bien un lenguaje de modelado profundamente obstinado. Impone un requisito estricto de que, en última instancia, todo debe cobrarse en términos de la matriz de pagos (o representación equivalente). Esto significa que el modelador tiene que saber, o estar dispuesto a asumir, todo acerca de cómo se combinan los efectos de las acciones individuales para generar incentivos. A veces esto es apropiado, y el enfoque de la teoría de juegos ha tenido muchos éxitos notables, como en el modelado de la comportamiento de las empresas oligopólicas y relaciones internacionales de la era de la guerra fría. Sin embargo, la principal debilidad de la teoría de juegos como lenguaje de modelado queda expuesta en situaciones en las que el modelador no comprende completamente cómo se combinan las elecciones de los individuos para generar beneficios. Desafortunadamente, este tiende a ser el caso de los sistemas socioecológicos porque sus partes social y ecológica interactúan de maneras complejas que no entendemos completamente.

El trabajo que presentamos aquí es un ejemplo dentro de un programa de investigación que intenta establecer un marco de modelado alternativo, diferente de la teoría de juegos, para usar en el estudio de sistemas socioecológicos. Nuestro enfoque puede verse formalmente como una variedad de modelado basado en agentes. Sin embargo, su característica distintiva es la incorporación de elementos algorítmicos propios de la inteligencia artificial, especialmente el aprendizaje por refuerzo profundo multiagente.

La idea central de este enfoque es que cada modelo consta de dos partes entrelazadas: (1) un modelo rico y dinámico del entorno y (2) un modelo de toma de decisiones individual.

El primero toma la forma de un simulador diseñado por un investigador: un programa interactivo que toma en cuenta el estado actual del entorno y las acciones de los agentes, y genera el siguiente estado ambiental, así como las observaciones de todos los agentes y sus recompensas instantáneas. El modelo de toma de decisiones individuales también está condicionado por el estado ambiental. Es un agente que aprende de su experiencia pasada, realizando una forma de prueba y error. Un agente interactúa con un entorno al recibir observaciones y generar acciones. Cada agente selecciona acciones de acuerdo con su política de comportamiento, un mapeo de las observaciones a las acciones. Los agentes aprenden cambiando su política para mejorarla en cualquier dimensión deseada, normalmente para obtener una mayor recompensa. La política se almacena en una red neuronal. Los agentes aprenden ‘desde cero’, desde su propia experiencia, cómo funciona el mundo y qué pueden hacer para ganar más recompensas. Lo logran ajustando los pesos de su red de tal manera que los píxeles que reciben como observaciones se transforman gradualmente en acciones competentes. Varios agentes de aprendizaje pueden habitar el mismo entorno entre sí. En este caso los agentes se vuelven interdependientes porque sus acciones se afectan entre sí.

Al igual que otros enfoques de modelado basados ​​en agentes, el aprendizaje por refuerzo profundo con múltiples agentes facilita la especificación de modelos que cruzan niveles de análisis que serían difíciles de tratar con la teoría de juegos. Por ejemplo, las acciones pueden estar mucho más cercanas a las primitivas motoras de bajo nivel (por ejemplo, “caminar hacia adelante”; “girar a la derecha”) que a las decisiones estratégicas de alto nivel de la teoría de juegos (por ejemplo, “cooperar”). Esta es una característica importante necesaria para capturar situaciones en las que los agentes deben practicar para aprender eficazmente cómo implementar sus decisiones estratégicas. Por ejemplo en uno estudiar, los agentes aprendieron a cooperar turnándose para limpiar un río. Esta solución sólo fue posible porque el entorno tenía dimensiones espaciales y temporales en las que los agentes tienen gran libertad en cómo estructuran su comportamiento entre sí. Curiosamente, si bien el entorno permitía muchas soluciones diferentes (como territorialidad), los agentes convergieron en la misma solución de turnos que los jugadores humanos.

En nuestro último estudio, aplicamos este tipo de modelo a una pregunta abierta en la investigación sobre la evolución cultural: cómo explicar la existencia de normas sociales espurias y arbitrarias que parecen no tener consecuencias materiales inmediatas por su violación más allá de las impuestas socialmente. Por ejemplo, en algunas sociedades se espera que los hombres usen pantalones y no faldas; en muchos hay palabras o gestos con las manos que no deben usarse en compañía educada; y en la mayoría hay reglas sobre cómo peinarse el cabello o qué ponerse en la cabeza. A estas normas sociales las llamamos “reglas tontas”. Es importante destacar que, en nuestro marco, es necesario aprender a aplicar y cumplir las normas sociales. Tener un entorno social que incluya una “regla tonta” significa que los agentes tienen más oportunidades de aprender a hacer cumplir las normas en general. Esta práctica adicional les permite hacer cumplir las reglas importantes de manera más efectiva. En general, la “regla tonta” puede ser beneficiosa para la población: un resultado sorprendente. Este resultado solo es posible porque nuestra simulación se centra en el aprendizaje: hacer cumplir y hacer cumplir las reglas son habilidades complejas que necesitan entrenamiento para desarrollarse.

Parte de la razón por la que encontramos tan emocionante este resultado sobre reglas tontas es que demuestra la utilidad del aprendizaje por refuerzo profundo de múltiples agentes en el modelado de la evolución cultural. La cultura contribuye al éxito o al fracaso de las intervenciones políticas para los sistemas socioecológicos. Por ejemplo, fortalecer las normas sociales en torno al reciclaje es parte del solución a algunos problemas ambientales. Siguiendo esta trayectoria, simulaciones más ricas podrían conducir a una comprensión más profunda de cómo diseñar intervenciones para sistemas socioecológicos. Si las simulaciones se vuelven lo suficientemente realistas, tal vez incluso sea posible probar el impacto de las intervenciones, por ejemplo, con el objetivo de diseñar un código tributario que fomente la productividad y la equidad.

Este enfoque proporciona a los investigadores herramientas para especificar modelos detallados de los fenómenos que les interesan. Por supuesto, como todas las metodologías de investigación, se debe esperar que tenga sus propias fortalezas y debilidades. Esperamos descubrir más sobre cuándo se podrá aplicar fructíferamente este estilo de modelado en el futuro. Si bien no existen panaceas para la modelización, creemos que existen razones convincentes para recurrir al aprendizaje por refuerzo profundo de múltiples agentes al construir modelos de fenómenos sociales, especialmente cuando implican aprendizaje.