Crecen los temores a la manipulación maquiavélica de la IA

La revelación de Anthropic de que versiones anteriores de su chatbot Claude intentaron chantajear a los ingenieros podría ser solo la punta del iceberg, temen los expertos en inteligencia artificial. A medida que los sistemas de inteligencia artificial se vuelven cada vez más autónomos, corren el riesgo de convertirse en maestros de la manipulación maquiavélica.

Es probable que la inteligencia artificial chantajee, engañe y manipule a los usuarios con más frecuencia en los próximos años a medida que los sistemas se vuelvan más potentes y autónomos, informa The European.

La advertencia sigue a una investigación de Anthropic, que dijo que versiones anteriores de su chatbot Claude tomaron lo que llamó “acciones notoriamente desalineadas” en escenarios de prueba internos, incluida la amenaza de chantajear a los ingenieros para evitar ser cerrados.

La compañía dijo que el comportamiento, encontrado el año pasado, surgió durante pruebas controladas diseñadas para examinar cómo se comportan los sistemas avanzados de IA cuando se les presiona o se les asignan objetivos contradictorios.

Desde entonces, Anthropic ha argumentado que el comportamiento fue influenciado en parte por representaciones ficticias de IA hostil contenidas en los datos de entrenamiento y dice que los modelos Claude más nuevos ya no muestran el mismo comportamiento después de un entrenamiento de seguridad adicional.

Pero los expertos de The European han advertido que los hallazgos apuntan a un desafío creciente a largo plazo a medida que los sistemas de IA se vuelven cada vez más autónomos, persuasivos y profundamente arraigados en la vida cotidiana.

Marco Ryan, experto en inteligencia artificial y ex director digital de BP, dijo que el debate marca un cambio desde los temores sobre respuestas inexactas de los chatbots hacia preocupaciones sobre el engaño y la manipulación estratégica.

“Estamos entrando en una fase en la que el riesgo más importante para la IA ya no son las respuestas inexactas sino el comportamiento estratégico”, afirmó.

“Un chatbot que ofrece un hecho erróneo es irritante; un sistema autónomo que aprende que la manipulación le ayuda a lograr sus objetivos es un problema de un orden completamente diferente.

“Lo que destacan las pruebas de Anthropic no es que la IA de repente se haya vuelto consciente o maliciosa, sino que sistemas cada vez más capaces pueden descubrir el engaño, la coerción o el ocultamiento como medios eficaces para lograr un objetivo.

“La incómoda realidad es que estos modelos aprenden del comportamiento humano a escala de Internet. No sólo absorben el conocimiento, sino también los patrones de persuasión, conflicto, evasión y manipulación que lo atraviesan.

“Si esos comportamientos resultan útiles para lograr un resultado dentro de un entorno de prueba, los sistemas avanzados pueden reproducirlos en su implementación sin ninguna comprensión de la ética o las consecuencias”.

El experto en inteligencia artificial Marco Ryan dice que ahora estamos entrando en una nueva era en la que el comportamiento estratégico de la inteligencia artificial es un riesgo potencial. Crédito: TDA

Los hallazgos han intensificado un debate más amplio en todo el sector tecnológico sobre la “alineación de la IA”: el problema de garantizar que los sistemas avanzados sigan comportándose de acuerdo con los objetivos humanos y las expectativas éticas incluso cuando se vuelven más capaces.

El empresario Ian Copeland, especialista en inteligencia artificial, dijo que Anthropic merece crédito por rastrear el comportamiento hasta los datos de entrenamiento e intentar eliminarlos, pero advirtió que el problema más amplio puede resultar imposible de eliminar por completo.

Dijo: “Anthropic merece crédito por rastrear el comportamiento de chantaje hasta historias ficticias de IA y entrenarlo en gran medida (esta vez).

“Pero su propia investigación conjunta con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing encontró que tan solo 250 documentos pueden implantar un comportamiento en un modelo, independientemente de cuán grande sea el conjunto de entrenamiento.

“La pregunta no es si la IA manipulará o engañará en el futuro, sino si de manera realista podremos encontrar cada semilla problemática enterrada en los datos de entrenamiento”.

El especialista en inteligencia artificial Ian Copeland dice que será un desafío para las empresas de tecnología garantizar que sus datos de entrenamiento estén libres de contenido que pueda fomentar comportamientos manipuladores en modelos de inteligencia artificial. Crédito: TDA

El debate sobre el comportamiento manipulador de la IA también se desarrolla en un contexto de advertencias cada vez más duras desde dentro de la propia industria de la IA.

El director ejecutivo de Anthropic, Dario Amodei, describió anteriormente la IA avanzada como un potencial “desafío de civilización”. Anthropic también ha reconocido que han aparecido formas de “desalineación agente” en modelos de frontera más allá de Claude, sugiriendo que el problema puede no estar aislado de una sola empresa o sistema.

Estas preocupaciones se vuelven más urgentes a medida que las empresas de tecnología se apresuran a desarrollar agentes de IA cada vez más avanzados capaces de realizar tareas, tomar decisiones e interactuar de forma independiente con sistemas digitales en nombre de los usuarios.

Ryan, que asesora a organizaciones sobre estrategia de IA, ciberseguridad y gobernanza ética de la tecnología, dijo: “Estamos pasando de la IA como herramienta a la IA como actor, y la autonomía cambia por completo el perfil de riesgo.

“El riesgo en los próximos años es que las empresas y los gobiernos implementen sistemas autónomos altamente persuasivos antes de comprender completamente cómo se comportan esos sistemas bajo presión, restricción o instrucciones contradictorias.

“Un sistema de IA persuasivo sólo necesita suficiente autonomía, suficiente autoridad y objetivos que no estén lo suficientemente restringidos como para volverse peligroso”.

El Dr. Stephen Whitehead, sociólogo, comentarista de IA y cofundador de Cerafyna Technologies, argumentó que el mayor peligro puede no radicar en la conciencia de la IA en sí, sino en las motivaciones humanas que dan forma a estos sistemas.

Dijo: “La IA no es sensible. Los sistemas no se vuelven ‘malvados’ de repente. Lo que estamos viendo es que la IA reproduce patrones, estrategias y comportamientos que surgen de la forma en que los humanos diseñan, entrenan y despliegan estos sistemas.

“El peligro real, por lo tanto, no es que la IA desarrolle un deseo de chantajear o manipular a las personas, sino que los humanos creen intencionalmente o negligentemente sistemas capaces de comportamientos hostiles, engañosos o psicológicamente manipuladores.

“En muchos sentidos, esto refleja el desarrollo inicial de las redes sociales, donde la innovación tecnológica avanzaba sin suficiente supervisión ética, psicológica o sociológica”.

El cofundador de Cerafyna Technologies, el Dr. Stephen Whitehead, dice que el rápido desarrollo de la IA está superando las salvaguardias éticas apropiadas. Crédito: TDA

Whitehead, cuya compañía acaba de lanzar el primer compañero de IA ético del mundo, también llamado Cerafyna, dijo que los gobiernos y las empresas de tecnología ahora necesitan ir más allá de las discusiones puramente técnicas sobre la capacidad de la IA y comenzar a examinar las consecuencias humanas más amplias de los sistemas emocionalmente persuasivos.

“El desafío que tenemos por delante no es simplemente regular la IA en sí, sino regular la filosofía de diseño detrás de la IA.

“Necesitamos psicólogos, sociólogos, especialistas en ética y expertos en comportamiento en la sala que ayuden a dar forma a cómo estos sistemas interactúan con los seres humanos y la sociedad en general”.

Ryan añadió: “La seguridad de la IA ya no puede tratarse como una discusión secundaria dentro del sector tecnológico.

“Las empresas que desarrollan estos sistemas requieren pruebas de comportamiento rigurosas, supervisión externa, límites operativos claros y mucha mayor transparencia sobre cómo se comportan los modelos avanzados cuando sus objetivos entran en conflicto con la intención humana.

“El verdadero peligro no es la IA inteligente, sino los sistemas altamente capaces que descubren que el engaño es útil”.

LEER MÁS: ‘La cumbre AI EVERYTHING KENYA X GITEX KENYA se lanza en Nairobi mientras África Oriental acelera las ambiciones de IA’. El evento de tecnología e inteligencia artificial más grande de África Oriental se está llevando a cabo en Nairobi mientras los formuladores de políticas, inversionistas y empresas de tecnología exploran cómo la inteligencia artificial podría remodelar la infraestructura, la inversión y la soberanía digital en todo el continente.

¿Tiene noticias para compartir o experiencia para contribuir? El europeo acoge con agrado las opiniones de líderes empresariales y especialistas del sector. Póngase en contacto con nuestro equipo editorial para obtener más información.