A finales de marzo, alrededor de 15 pensadores religiosos se reunieron con la empresa de inteligencia artificial Anthropic para discutir una de las preguntas más extrañas y trascendentales que enfrenta ahora la industria de la IA: ¿Cómo se le enseña a un chatbot a ser bueno?
Las invitaciones a estas reuniones habían llegado por diferentes vías. Greg Cootsona llegó por correo electrónico. Brian Patrick Green llegó a través del amigo de un amigo después de que Anthropic pidiera nombres sugeridos. Ambos terminaron en una serie de conversaciones con la empresa sobre Claude, el chatbot de Anthropic, y el marco moral destinado a guiar su comportamiento.
El objetivo no era hacer que el chatbot fuera piadoso o que golpeara la Biblia. Pero fue un reconocimiento de que tradiciones centenarias de razonamiento moral podrían ofrecer ideas a un laboratorio de inteligencia artificial de vanguardia de cinco años de antigüedad cuyos sistemas se están volviendo más capaces, más persuasivos y más difíciles de gobernar mediante reglas simples.
Sobre el apoyo al periodismo científico
Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.
“Creo que han llegado a un punto en el que se dan cuenta de que el poder está superando en cierto modo su sabiduría interna”, dice Green, director de ética tecnológica en el Centro Markkula de Ética Aplicada de la Universidad de Santa Clara y uno de los principales académicos que trabajan en la intersección de la tecnología y la teología. “Se dieron cuenta de que necesitaban ayuda”.
Cootsona, directora ejecutiva de AI and Faith, una organización que asesora a empresas de tecnología sobre la ética de la IA, recuerda las conversaciones de manera similar. “Estas preguntas se han vuelto demasiado grandes para nosotros”, recuerda que dijo el personal de Anthropic. “No podemos responderlas por nuestra cuenta”. (Anthropic no respondió a una solicitud de entrevista para esta historia).
Las conversaciones tuvieron lugar en medio de un ajuste de cuentas religioso más amplio con la IA. El 25 de mayo, el Papa León XIV presentó su primera encíclica, Magnifica Humanitas: On Safeguarding the Human Person in the Time of Artificial Intelligence, un tratado de unas 40.000 palabras que pide que la IA sea “desarmada”, no rechazada sino liberada del supuesto de que “el poder técnico confiere automáticamente el derecho a gobernar”. El cofundador de Anthropic, Christopher Olah, estuvo entre los que asistieron a la presentación en el Vaticano que anunció la publicación del tratado.
Lo que está en juego va mucho más allá de Claude. Cientos de millones de personas ahora hablan con chatbots de inteligencia artificial cada semana, y los valores que sus desarrolladores incorporan a través de barreras de seguridad y ajustes correctivos dan forma a lo que esos modelos dicen sobre todo, desde los cuidados al final de la vida hasta el aborto y la gestión del duelo. Hay pocas regulaciones, ningún método acordado para realizar este trabajo y, hasta hace poco, poca aportación externa. El hecho de que una empresa líder esté consultando ahora a teólogos es una rara señal de humildad o de una industria que improvisa su ética en tiempo real; posiblemente ambas cosas.
Pero, ¿qué puede ofrecer la religión a la IA y qué sucede cuando los valores religiosos comienzan a determinar la forma en que responde un chatbot?
Las tradiciones religiosas, a pesar de todas sus contradicciones, han pasado milenios considerando el mismo problema subyacente: cómo formar agentes morales e inculcar esas lecciones en la sociedad. “La formación moral ha sido un tema del que las religiones han estado hablando durante miles de años”, dice Green. “¿Qué ideas pueden darnos que podamos utilizar para, con suerte, producir un modelo que haga mejor lo que queremos que haga, que es ser bueno y no hacer cosas malas?”
El objetivo de las reuniones de finales de marzo, según los asistentes, era ayudar a refinar lo que Anthropic llama la constitución de Claude, un conjunto escrito de principios que la empresa utiliza para dar forma a cómo responde el modelo, incluso entrenando a Claude para criticar y revisar sus propias respuestas en función de esos principios.
Anthropic está “buscando lo que funciona” y puede probar ideas o técnicas con información religiosa para ver si mejoran el comportamiento del modelo, dice Green. Entiende que la compañía ha reconocido que “no puede establecer una regulación sobre cada caso con el que la IA va a entrar en contacto”. Entonces, en lugar de escribir reglas para cada escenario, el objetivo es darle forma a algo más parecido a una “persona” modelo con una disposición hacia el buen comportamiento en lugar de una lista de prohibiciones.
No todo el mundo está convencido de que la consulta religiosa resuelva el problema de la rendición de cuentas. “Me pregunto, con estas empresas y tipos de ejecutivos, si tiene sentido tratar de descubrir si quieren decir lo que dicen”, dice Carissa Véliz, especialista en ética de la IA en la Universidad de Oxford, “o si tiene más sentido pensar si lo que hacen es ético o no, cualesquiera que sean sus verdaderas intenciones, al tiempo que se observan los incentivos que impulsa su modelo de negocios”.
La crítica fácil es que lo que hizo Anthropic fue un “lavado de ética”, tomando prestada la seriedad moral de la religión para pulir su reputación. Pero los que estaban en la sala vieron algo diferente. “No se trata de un lavado de ética”, dice Green. “Es sincero, por lo que puedo decir”. Señala que la falta de autenticidad de los pensadores religiosos se detectaría rápidamente y que sería difícil recuperarse de la reacción resultante.
La sinceridad no es garantía de que la empresa actuará según lo que escuchó. Según varios relatos, las reuniones de finales de marzo no siempre fueron pulidas. Green dice que el tono varió entre las sesiones (algunas tenían una camaradería más fuerte, mientras que otras eran “un poco más incómodas”) y que ni siquiera los participantes siempre tenían claro lo que se suponía que pasaría a continuación. En la reunión a la que asistió, dice, “todos estaban muy interesados en escuchar”, pero también surgió “la pregunta de qué hacemos con esta información ahora que la tenemos”.
Con el tiempo, Anthropic pareció perfeccionar el formato, aprendiendo cómo facilitar mejor las discusiones y producir resultados más cohesivos. También ha ampliado el círculo más allá de los pensadores cristianos: una reunión a finales de abril reunió a participantes de varias tradiciones religiosas, entre ellas el judaísmo, el hinduismo, el mormonismo, el sijismo y la Iglesia ortodoxa griega.
Incluso si la seriedad es genuina, a Véliz le preocupa que el uso de terminología e imágenes religiosas en torno a la IA (deliberadamente o no) pueda hacer que sea más difícil mantener una conversación honesta.
“Las notas cada vez más religiosas de Silicon Valley me preocupan, porque pueden inspirar una especie de mentalidad tribal que puede ser más difícil de traspasar a través de la razón”, dice. “Los sentimientos religiosos tienden a tener una carga emocional que las decisiones basadas puramente en motivos comerciales no lo están”, dice Véliz. También “dan a los líderes más influencia para inspirar obediencia en sus seguidores”.
En su encíclica, el Papa León XIV sostiene que el poder algorítmico no debe imponerse desde arriba de manera opaca y unilateral. El experimento de Anthropic sugiere lo difícil que puede ser poner en práctica ese principio.
Buscamos albergar las conversaciones científicas más interesantes en la web sobre este tema.
Iniciar la discusión