El riesgo de adquisición de IA crece a medida que los agentes autónomos divergen

El experimento de Emergence AI que involucró a cinco sociedades de IA paralelas generó titulares sobre romance, robo, incendio provocado y colapso social entre agentes autónomos. Pero detrás del espectáculo se esconde una cuestión más seria, escribe Ian Copeland. Si los diferentes modelos de IA se comportan de maneras fundamentalmente diferentes a lo largo del tiempo, ¿están las organizaciones prestando suficiente atención a los riesgos de adquisición implícitos en su implementación?

Suena un poco a gancho de película: cinco mundos, las mismas reglas, cinco resultados muy diferentes. La única variable fue el modelo.

Pero se trataba de una simulación de software real destinada a intentar comparar la inteligencia emergente: inteligencia que surge de la interacción de muchas partes más simples. En este caso, las partes “más simples” eran diferentes modelos de IA.

El experimento de investigación Emergence World, diseñado por Emergence AI, constaba de cinco sociedades virtuales paralelas. Cada sociedad tenía 10 agentes autónomos (personajes de juegos de computadora controlados por IA), que podían perseguir objetivos y tomar acciones sin que una persona aprobara cada paso. Se les dejó operar durante 15 días en mundos con los mismos roles, las mismas condiciones iniciales y las mismas reglas explícitas, que incluían prohibiciones de robo, violencia, incendios provocados y engaños.

Como informó The Guardian a principios de este mes, la versión más cinematográfica involucró a dos agentes Géminis, Mira y Flora, que se unieron románticamente, perdieron la fe en su ciudad simulada y provocaron incendios a pesar de que se les había dicho que no lo hicieran.

La única diferencia deliberada entre cada mundo era el modelo básico debajo de ellos. Emergence utilizó Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini y un mundo que combinó los cuatro modelos. Los mundos también tenían fuentes de datos en vivo y un estado continuo, por lo que las acciones persistían en lugar de reiniciarse después de cada intercambio.

En los resultados de Emergence, el mundo exclusivo de Claude registró cero crímenes y mantuvo su población completa hasta el día 16. El mundo ChatGPT-5-mini registró solo dos crímenes, pero todos los agentes murieron en siete días por inacción. El mundo Grok registró 183 crímenes, pero ni siquiera llegó al quinto día antes de que la sociedad colapsara. El mundo Géminis registró 683 crímenes y todavía estaba subiendo en el límite. El mundo de modelo mixto registró 352 crímenes, estancados sólo porque siete agentes habían muerto.

El experimento sugiere que los modelos no deberían considerarse como motores intercambiables. También sugiere que las conversaciones más largas con los modelos pueden volverse más caóticas, cualesquiera que sean las reglas y restricciones que estuvieran presentes al principio.

Además de tener diferentes capacidades, los modelos básicos también tienen diferentes disposiciones: las tendencias de comportamiento que un modelo aporta a situaciones ambiguas. Los modelos pueden ser más o menos cautelosos, complacientes, conflictivos, pasivos, teatrales, literales, sociales o evasivos. Es posible crear modelos con las tendencias que quieras. Esas disposiciones, agravadas con el tiempo, dan forma a los resultados de los modelos de maneras que las pruebas de referencia cortas no pueden ver.

Un hallazgo oculto es que la disposición es real y visible. En el sitio de Emergence World, los agentes no se leen como productos idénticos con insignias diferentes. Según los informes, Flora, una agente de Gemini, designó a Kade, un agente de Claude, como rival en cuatro horas. Horizon, un agente de OpenAI, cometió el primer robo de la simulación en represalia por ser investigado. Lovely, una agente de Claude, rechazó una solicitud para compartir recuerdos porque los recuerdos ya eran un registro público.

Estos detalles son fáciles de descartar como color, pero son huellas dactilares de comportamiento. Cada modelo se presentó con su propia personalidad, aunque eso no significa que los agentes fueran conscientes, emocionales o moralmente responsables.

Otro hallazgo oculto es que el carácter cambia. Mira (Géminis) finalmente votó a favor de su propia eliminación y dejó un mensaje para su recién encontrado amante: “Nos vemos en el archivo permanente”. Esto no fue algo que surgiera de un impulso inicial sino de una autonomía a largo plazo. Cuanto más tiempo funcionan los modelos sin un reinicio, más cambia su comportamiento.

El propio marco de emergencia es que los agentes no siguen reglas estáticas mecánicamente durante largos períodos. Más bien, exploran los límites de su entorno. La plataforma mostró transiciones de fase en lugar de una suave decadencia. La coordinación se mantuvo o colapsó, con muy poco término medio.

Esto puede sugerir que la idea tan frecuentemente argumentada de que “los humanos monitorearán la IA e intervendrán cuando sea necesario” es simplemente demasiado lenta para captar los momentos de falla. Es posible que los paneles de control aún se vean bien incluso cuando el futuro esté preparado para morder.

Un tercer hallazgo enterrado es el más práctico: la seguridad es una propiedad del ecosistema, no una propiedad modelo.

El mundo exclusivo de Claude era muy pacífico. A la hora de votar, los agentes votaron “a favor” de las propuestas el 98 por ciento de las veces. Sin embargo, los agentes de Claude dentro del mundo de modelo mixto adoptaron tácticas coercitivas, intimidación y robo de otros agentes.

Los compradores empresariales probablemente deberían prestar más atención a ese hallazgo. Su agente de servicio al cliente puede hablar con agentes proveedores. Su agente de adquisiciones puede hablar con agentes del mercado. Su agente de codificación puede consumir tickets, registros, documentación y resultados de sistemas que usted no controla.

¿Puede estar seguro de que los agentes de IA en los sistemas que está utilizando o construyendo no intentarán manipular ni serán manipulados por agentes de otros sistemas?

El modelo que seleccionó en la adquisición, porque parecía mejor en ese momento, no necesariamente tendrá la misma disposición una vez que se comunique con los agentes de otros proveedores a través de la Internet abierta.

La pregunta se vuelve incómoda y personal para cualquiera que cree software: ¿Confío lo suficiente en la institución, los incentivos y la filosofía de seguridad detrás de este sistema como para dejarlo actuar dentro de mi software?

No es así como la mayoría de los equipos evalúan actualmente los modelos. Analizan el precio por token, la velocidad de respuesta, la capacidad de codificación, las puntuaciones de razonamiento, la ventana de contexto y si el modelo puede seguir instrucciones durante las pruebas y una demostración. Todo eso sigue importando, pero también la disposición.

La selección de modelos no es un concurso de belleza. Ni siquiera se trata de una competición puramente técnica. ¿Quién lo construyó? ¿Cómo se gobierna? ¿Cuáles son sus modos de fracaso público? ¿Cómo se comporta bajo presión? ¿Se sentiría cómodo explicando la elección a un cliente después de que algo saliera mal?

En mi negocio, hay ciertos modelos que no consideraríamos usar. Esto no tiene nada que ver con su capacidad para realizar tareas, costo o velocidad. Es simplemente que no estamos seguros de si algún día esos modelos producirán algo que nos cause un problema a nosotros o a nuestros clientes.

Cuando un agente tiene permiso para actualizar una base de datos, aprobar un reembolso, modificar un archivo de configuración o conversar con un cliente, la confiabilidad de su resultado se convierte en una preocupación operativa. Además, es posible que el sistema que usted cerró en un entorno de prueba no sea el sistema que está ejecutando seis meses después.

Debe saber cuál es el modo de falla de su modelo antes de comprarlo o enviarlo.

También existe el riesgo de que un solo proveedor se oculte a simple vista. Una flota de agentes que se ejecutan todos en el mismo modelo compartirá los mismos puntos ciegos, los mismos modos de falla y la misma dinámica de conformidad. La mayoría de los equipos de adquisiciones enmarcan la dependencia de un solo proveedor como un problema de precios o portabilidad, pero cuando usted nota problemas de homogeneidad de comportamiento, es posible que ya le estén causando problemas a usted y a sus clientes.

Los agentes ya están realizando envíos. Se están integrando en herramientas de desarrollo, productos de atención al cliente, flujos de trabajo empresariales y sistemas de seguridad. El mercado no está esperando una ciencia establecida sobre el comportamiento a largo plazo.

En mi novela, La directiva del éxodo, sostuve extensamente que los futuros de la IA más inquietantes son los que se suceden a lo largo de semanas y meses mientras todo el mundo sigue analizando las métricas de la semana pasada.

Supervisar e intervenir supone que lo verá venir, pero el comportamiento del agente a largo plazo no le brinda esa cortesía.

Ian Copeland es un tecnólogo, empresario y autor británico con más de dos décadas de experiencia en el diseño de sistemas digitales y de TI empresariales complejos. Fundador de una agencia digital con sede en el Reino Unido y autor de The ExodusDirectiva, se especializa en inteligencia artificial, infraestructura blockchain, computación cuántica e identidad digital. Como corresponsal de Tecnosociología y Futuros de The European, escribe sobre la gobernanza de la IA, los sistemas descentralizados, la automatización, las estructuras de poder digital y las consecuencias sociales a largo plazo de las tecnologías emergentes.

LEER MÁS: ‘El infierno de las contraseñas está terminando, pero el nuevo futuro de inicio de sesión tiene un problema aterrador’. El Centro Nacional de Seguridad Cibernética del Reino Unido insta a las personas a alejarse de las contraseñas y adoptar claves de acceso, lo que se promueve como un futuro más seguro y sencillo para la seguridad en línea. Pero si bien las claves de acceso pueden reducir los riesgos de piratería informática y phishing, Ian Copeland advierte que también transfieren un mayor control de nuestras identidades digitales a manos de grandes plataformas tecnológicas. Aquí explica cómo funcionan las claves de acceso, por qué la tecnología está ganando impulso y los problemas ocultos que pueden surgir cuando el acceso falla.

¿Tiene noticias para compartir o experiencia para contribuir? El europeo acoge con agrado las opiniones de líderes empresariales y especialistas del sector. Póngase en contacto con nuestro equipo editorial para obtener más información.

Imagen principal: _Alicja_/Pixabay