En nuestro artículo reciente, exploramos cómo las poblaciones de agentes de aprendizaje por refuerzo profundo (RL profundo) pueden aprender comportamientos microeconómicos, como la producción, el consumo y el comercio de bienes. Encontramos que los agentes artificiales aprenden a tomar decisiones económicamente racionales sobre la producción, el consumo y los precios, y reaccionan apropiadamente a los cambios de la oferta y la demanda. La población converge hacia los precios locales que reflejan la abundancia cercana de recursos, y algunos agentes aprenden a transportar bienes entre estas áreas para “comprar barato y vender caro”. Este trabajo avanza en la agenda más amplia de investigación del aprendizaje por refuerzo de múltiples agentes al introducir nuevos desafíos sociales para que los agentes aprendan a resolverlos.
En la medida en que el objetivo de la investigación del aprendizaje por refuerzo con múltiples agentes es producir agentes que funcionen en toda la gama y complejidad de la inteligencia social humana, el conjunto de dominios considerados hasta ahora ha sido lamentablemente incompleto. Todavía faltan dominios cruciales en los que sobresale la inteligencia humana y en los que los humanos dedican cantidades significativas de tiempo y energía. El tema de la economía es uno de esos dominios. Nuestro objetivo en este trabajo es establecer entornos basados en los temas de comercio y negociación para que los utilicen los investigadores en el aprendizaje por refuerzo de múltiples agentes.
La economía utiliza modelos basados en agentes para simular cómo se comportan las economías. Estos modelos basados en agentes a menudo incorporan supuestos económicos sobre cómo deberían actuar los agentes. En este trabajo, presentamos un mundo simulado con múltiples agentes donde los agentes pueden aprender comportamientos económicos desde cero, de maneras familiares para cualquier estudiante de Microeconomía 101: decisiones sobre producción, consumo y precios. Pero nuestros agentes también deben tomar otras decisiones que se derivan de una forma de pensar más materializada físicamente. Deben navegar en un entorno físico, encontrar árboles para recoger frutas y socios con quienes comerciarlas. Los avances recientes en técnicas de RL profunda ahora permiten crear agentes que pueden aprender estos comportamientos por sí mismos, sin necesidad de que un programador codifique el conocimiento del dominio.
Nuestro entorno, llamado Mercado de fruta, es un entorno multijugador donde los agentes producen y consumen dos tipos de frutas: manzanas y plátanos. Cada agente es experto en producir un tipo de fruta, pero tiene preferencia por el otro; si los agentes pueden aprender a trueque e intercambiar bienes, ambas partes estarían en mejor situación.
En nuestros experimentos, demostramos que los actuales agentes de RL profundo pueden aprender a comerciar, y sus comportamientos en respuesta a los cambios de oferta y demanda se alinean con lo que predice la teoría microeconómica. Luego nos basamos en este trabajo para presentar escenarios que serían muy difíciles de resolver utilizando modelos analíticos, pero que son sencillos para nuestros agentes de RL profundo. Por ejemplo, en entornos donde cada tipo de fruta crece en una zona diferente, observamos el surgimiento de diferentes regiones de precios relacionadas con la abundancia local de fruta, así como el posterior aprendizaje del comportamiento de arbitraje por parte de algunos agentes, que comienzan a especializarse en transportar fruta entre estas regiones.
El campo de la economía computacional basada en agentes utiliza simulaciones similares para la investigación económica. En este trabajo, también demostramos que las técnicas de RL profundas de última generación pueden aprender de manera flexible a actuar en estos entornos a partir de su propia experiencia, sin necesidad de tener conocimientos económicos incorporados. Esto resalta el progreso reciente de la comunidad de aprendizaje por refuerzo en múltiples -Agent RL y Deep RL, y demuestra el potencial de las técnicas de múltiples agentes como herramientas para avanzar en la investigación de economía simulada.
Como un camino hacia la inteligencia artificial general (AGI), la investigación del aprendizaje por refuerzo de múltiples agentes debería abarcar todos los dominios críticos de la inteligencia social. Sin embargo, hasta ahora no ha incorporado fenómenos económicos tradicionales como el comercio, la negociación, la especialización, el consumo y la producción. Este artículo llena este vacío y proporciona una plataforma para futuras investigaciones. Para ayudar a futuras investigaciones en esta área, el entorno del mercado de frutas se incluirá en la próxima versión del Crisol conjunto de ambientes.