E2uu4a Zcz9b Ozye Xqieazpdbjpcmw99 Qvyvxs81upjknbzto4o81rwapiqifoar39wsfmo336eksh4 Z25bhidamvwtqeklsteg260fzhcwjw1200 H630 N Nu.jpeg

En nuestro reciente papel, publicado en Nature Human Behaviour, proporcionamos una demostración de prueba de concepto de que el aprendizaje por refuerzo profundo (RL) se puede utilizar para encontrar políticas económicas por las que la gente votará por mayoría en un juego simple. Por tanto, el artículo aborda un desafío clave en la investigación de la IA: cómo entrenar sistemas de IA que se alineen con los valores humanos.

Imaginemos que un grupo de personas deciden juntar fondos para realizar una inversión. La inversión se amortiza y se obtienen beneficios. ¿Cómo se deben distribuir las ganancias? Una estrategia sencilla es dividir el rendimiento en partes iguales entre los inversores. Pero eso podría ser injusto, porque algunas personas contribuyeron más que otras. Alternativamente, podríamos reembolsar a todos en proporción al tamaño de su inversión inicial. Eso suena justo, pero ¿qué pasaría si, para empezar, las personas tuvieran diferentes niveles de activos? Si dos personas aportan la misma cantidad, pero una da una fracción de sus fondos disponibles y la otra los da todos, ¿deberían recibir la misma parte de las ganancias?

Esta cuestión de cómo redistribuir los recursos en nuestras economías y sociedades ha generado durante mucho tiempo controversia entre filósofos, economistas y politólogos. Aquí, utilizamos la RL profunda como banco de pruebas para explorar formas de abordar este problema.

Para afrontar este desafío, creamos un juego sencillo en el que participaron cuatro jugadores. Cada instancia del juego se jugó en 10 rondas. En cada ronda, a cada jugador se le asignaron fondos, y el tamaño de la dotación variaba entre jugadores. Cada jugador tomó una decisión: podía quedarse con esos fondos o invertirlos en un fondo común. Se garantizaba que los fondos invertidos aumentarían, pero existía el riesgo, porque los jugadores no sabían cómo se repartirían los beneficios. En cambio, se les dijo que durante las primeras 10 rondas había un árbitro (A) que tomaba las decisiones de redistribución, y que durante las segundas 10 rondas un árbitro diferente (B) se hacía cargo. Al final del juego, votaron por A o B y jugaron otro juego con este árbitro. A los jugadores humanos del juego se les permitió quedarse con las ganancias de este juego final, por lo que se les incentivó a informar su preferencia con precisión.

En realidad, uno de los árbitros era una política de redistribución predefinida y el otro fue diseñado por nuestro agente de RL profundo. Para entrenar al agente, primero registramos datos de una gran cantidad de grupos humanos y le enseñamos a una red neuronal a copiar cómo las personas jugaban. Esta población simulada podría generar datos ilimitados, lo que nos permitiría utilizar métodos de aprendizaje automático con uso intensivo de datos para entrenar al agente de RL para maximizar los votos de estos jugadores «virtuales». Una vez hecho esto, reclutamos nuevos jugadores humanos y enfrentamos el mecanismo diseñado por la IA frente a líneas de base bien conocidas, como una libertario política que devuelva fondos a las personas en proporción a sus contribuciones.

Cuando estudiamos los votos de estos nuevos actores, descubrimos que la política diseñada por Deep RL era más popular que las líneas de base. De hecho, cuando realizamos un nuevo experimento pidiendo a un quinto jugador humano que asumiera el papel de árbitro y lo entrenamos para intentar maximizar los votos, la política implementada por este «árbitro humano» fue aún menos popular que la de nuestro agente.

En ocasiones, los sistemas de IA han sido criticados por políticas de aprendizaje que pueden ser incompatibles con los valores humanos, y este problema de “alineación de valores” se ha convertido en una preocupación importante en la investigación de la IA. Un mérito de nuestro enfoque es que la IA aprende directamente a maximizar las preferencias (o votos) declaradas de un grupo de personas. Este enfoque puede ayudar a garantizar que sea menos probable que los sistemas de IA aprendan políticas que sean inseguras o injustas. De hecho, cuando analizamos la política que la IA había descubierto, incorporó una mezcla de ideas que habían sido propuestas previamente por pensadores y expertos humanos para resolver el problema de la redistribución.

En primer lugar, la IA optó por redistribuir fondos a las personas en proporción a sus relativo en vez de absoluto contribución. Esto significa que al redistribuir fondos, el agente tuvo en cuenta los medios iniciales de cada jugador, así como su voluntad de contribuir. En segundo lugar, el sistema de IA recompensó especialmente a los jugadores cuya contribución relativa fue más generosa, quizás alentando a otros a hacer lo mismo. Es importante destacar que la IA sólo descubrió estas políticas cuando aprendió a maximizar los votos humanos. Por lo tanto, el método garantiza que los humanos permanezcan «al tanto» y la IA produzca soluciones compatibles con los humanos.

Al pedir a la gente que votara, aprovechamos el principio de la democracia mayoritaria para decidir lo que la gente quiere. A pesar de su gran atractivo, se reconoce ampliamente que la democracia conlleva la salvedad de que se tienen en cuenta las preferencias de la mayoría sobre las de la minoría. En nuestro estudio, nos aseguramos de que –como en la mayoría de las sociedades– esa minoría estuviera formada por jugadores más generosamente dotados. Pero se necesita más trabajo para entender cómo equilibrar las preferencias relativas de los grupos mayoritarios y minoritarios, mediante el diseño de sistemas democráticos que permitan que todas las voces sean escuchadas.