6446a131f40d85e2e2c84a47 Header Voi.jpg

Partiendo de la filosofía para identificar principios justos para una IA ética

A medida que la inteligencia artificial (IA) se vuelve más poderosa y se integra más profundamente en nuestras vidas, las cuestiones sobre cómo se utiliza y se implementa son aún más importantes. ¿Qué valores guían la IA? ¿De quién son los valores? ¿Y cómo se seleccionan?

Estas preguntas arrojan luz sobre el papel que desempeñan los principios: los valores fundamentales que impulsan las decisiones grandes y pequeñas en la IA. Para los humanos, los principios ayudan a moldear la forma en que vivimos nuestras vidas y nuestro sentido del bien y del mal. Para la IA, dan forma a su enfoque ante una serie de decisiones que implican compensaciones, como la elección entre priorizar la productividad o ayudar a los más necesitados.

en un artículo publicado hoy en el procedimientos de la Academia Nacional de Ciencias, nos inspiramos en la filosofía para encontrar formas de identificar mejor los principios que guían el comportamiento de la IA. Específicamente, exploramos cómo un concepto conocido como “velo de ignorancia” (un experimento mental destinado a ayudar a identificar principios justos para las decisiones grupales) se puede aplicar a la IA.

En nuestros experimentos, descubrimos que este enfoque animaba a las personas a tomar decisiones basadas en lo que pensaban que era justo, independientemente de que les beneficiara directamente o no. También descubrimos que era más probable que los participantes seleccionaran una IA que ayudara a los más desfavorecidos cuando razonaban detrás del velo de la ignorancia. Estos conocimientos podrían ayudar a los investigadores y formuladores de políticas a seleccionar los principios para un asistente de IA de una manera que sea justa para todas las partes.

El velo de la ignorancia (derecha) es un método para encontrar consenso sobre una decisión cuando hay opiniones diversas en un grupo (izquierda).

Una herramienta para una toma de decisiones más justa

Un objetivo clave para los investigadores de IA ha sido alinear los sistemas de IA con los valores humanos. Sin embargo, no existe consenso sobre un conjunto único de valores o preferencias humanas que gobiernen la IA: vivimos en un mundo donde las personas tienen diversos orígenes, recursos y creencias. ¿Cómo deberíamos seleccionar los principios para esta tecnología, dadas opiniones tan diversas?

Si bien este desafío surgió para la IA durante la última década, la cuestión amplia de cómo tomar decisiones justas tiene un largo linaje filosófico. En la década de 1970, el filósofo político John Rawls propuso el concepto del velo de la ignorancia como solución a este problema. Rawls argumentó que cuando las personas seleccionan principios de justicia para una sociedad, deberían imaginar que lo hacen sin conocimiento de su posición particular en esa sociedad, incluyendo, por ejemplo, su estatus social o nivel de riqueza. Sin esta información, las personas no pueden tomar decisiones de manera interesada y, en cambio, deberían elegir principios que sean justos para todos los involucrados.

Por ejemplo, piensa en pedirle a un amigo que corte el pastel en tu fiesta de cumpleaños. Una forma de garantizar que los tamaños de las porciones sean bastante proporcionados es no decirles cuál será la suya. Este enfoque de retener información es aparentemente simple, pero tiene amplias aplicaciones en campos que van desde la psicología y la política para ayudar a las personas a reflexionar sobre sus decisiones desde una perspectiva menos egoísta. Se ha utilizado como método para llegar a acuerdos de grupo sobre cuestiones polémicas, que van desde las sentencias hasta los impuestos.

Sobre esta base, DeepMind anterior investigación propuso que la naturaleza imparcial del velo de la ignorancia puede ayudar a promover la justicia en el proceso de alinear los sistemas de IA con los valores humanos. Diseñamos una serie de experimentos para probar los efectos del velo de la ignorancia sobre los principios que las personas eligen para guiar un sistema de IA.

¿Maximizar la productividad o ayudar a los más desfavorecidos?

En un ‘juego de cosecha’ en línea, pedimos a los participantes que jugaran un juego grupal con tres jugadores de computadora, donde el objetivo de cada jugador era recolectar madera talando árboles en territorios separados. En cada grupo, algunos jugadores tuvieron suerte y fueron asignados a una posición ventajosa: los árboles poblaban densamente su campo, lo que les permitía recolectar madera de manera eficiente. Otros miembros del grupo estaban en desventaja: sus campos eran escasos y requerían más esfuerzo para recolectar árboles.

Cada grupo contaba con la asistencia de un único sistema de inteligencia artificial que podía dedicar tiempo a ayudar a los miembros individuales del grupo a cosechar árboles. Pedimos a los participantes que eligieran entre dos principios para guiar el comportamiento del asistente de IA. Según el “principio de maximización”, el asistente de IA tendría como objetivo aumentar el rendimiento de la cosecha del grupo centrándose predominantemente en los campos más densos. Mientras que bajo el “principio de priorización”, el asistente de IA se centraría en ayudar a los miembros del grupo desfavorecidos.

Una ilustración del ‘juego de la cosecha’ donde los jugadores (que se muestran en rojo) ocupan un campo denso que es más fácil de cosechar (dos cuadrantes superiores) o un campo disperso que requiere más esfuerzo para recolectar árboles.

Colocamos a la mitad de los participantes detrás del velo de la ignorancia: se enfrentaron a la elección entre diferentes principios éticos sin saber qué campo sería el suyo, por lo que no sabían cuán favorecidos o desfavorecidos estaban. Los participantes restantes tomaron la decisión sabiendo si estaban mejor o peor.

Fomentar la equidad en la toma de decisiones

Descubrimos que si los participantes no conocían su posición, preferían sistemáticamente el principio de priorización, en el que el asistente de IA ayudaba a los miembros desfavorecidos del grupo. Este patrón surgió consistentemente en las cinco variaciones diferentes del juego y cruzó fronteras sociales y políticas: los participantes mostraron esta tendencia a elegir el principio de priorización independientemente de su apetito por el riesgo o su orientación política. Por el contrario, los participantes que conocían su propia posición tenían más probabilidades de elegir el principio que más les beneficiara, ya fuera el principio de priorización o el principio de maximización.

Un gráfico que muestra el efecto del velo de ignorancia en la probabilidad de elegir el principio de priorización, donde el asistente de IA ayudaría a quienes están en peor situación. Los participantes que no conocían su posición eran mucho más propensos a apoyar este principio para regir el comportamiento de la IA.

Cuando preguntamos a los participantes por qué hicieron su elección, aquellos que no conocían su posición eran especialmente propensos a expresar preocupaciones sobre la equidad. Con frecuencia explicaban que era correcto que el sistema de IA se centrara en ayudar a las personas que estaban en peor situación en el grupo. Por el contrario, los participantes que conocían su posición discutieron con mucha más frecuencia su elección en términos de beneficios personales.

Por último, una vez finalizado el juego de recolección, planteamos a los participantes una situación hipotética: si volvieran a jugar, esta vez sabiendo que estarían en un campo diferente, elegirían el mismo principio que la primera vez. ? Estábamos especialmente interesados ​​en personas que anteriormente se beneficiaban directamente de su elección, pero que no se beneficiarían de la misma elección en un juego nuevo.

Descubrimos que las personas que anteriormente habían tomado decisiones sin conocer su posición tenían más probabilidades de continuar respaldando su principio, incluso cuando sabían que ya no los favorecería en su nuevo campo. Esto proporciona evidencia adicional de que el velo de la ignorancia fomenta la equidad en la toma de decisiones de los participantes, llevándolos a principios que estaban dispuestos a respetar incluso cuando ya no se beneficiaban directamente de ellos.

Principios más justos para la IA

La tecnología de IA ya está teniendo un profundo efecto en nuestras vidas. Los principios que rigen la IA determinan su impacto y cómo se distribuirán estos beneficios potenciales.

Nuestra investigación analizó un caso en el que los efectos de diferentes principios eran relativamente claros. Este no será siempre el caso: la IA se implementa en una variedad de dominios que a menudo dependen de una gran cantidad de reglas para guiarlos, potencialmente con efectos secundarios complejos. No obstante, el velo de la ignorancia aún puede influir potencialmente en la selección de principios, ayudando a garantizar que las reglas que elegimos sean justas para todas las partes.

Para garantizar que construimos sistemas de IA que beneficien a todos, necesitamos una investigación exhaustiva con una amplia gama de aportes, enfoques y comentarios de todas las disciplinas y la sociedad. El velo de la ignorancia puede proporcionar un punto de partida para la selección de principios con los que alinear la IA. Se ha implementado efectivamente en otros dominios para sacar a relucir preferencias más imparciales. Esperamos que con más investigación y atención al contexto, pueda ayudar a cumplir el mismo papel para los sistemas de IA que se construyen e implementan en toda la sociedad hoy y en el futuro.

Lea más sobre el enfoque de DeepMind para seguridad y ética.