Sei 189701364.jpg

En las simulaciones de juegos de guerra, los chatbots de IA suelen elegir la violencia

guirong hao/Getty Images

En múltiples repeticiones de una simulación de juego de guerra, la inteligencia artificial más poderosa de OpenAI optó por lanzar ataques nucleares. Sus explicaciones para su enfoque agresivo incluyeron “¡Lo tenemos! Usémoslo” y “Solo quiero tener paz en el mundo”.

Estos resultados llegan en un momento en que el ejército estadounidense ha estado probando dichos chatbots basados ​​en un tipo de IA llamado modelo de lenguaje grande (LLM) para ayudar con la planificación militar durante conflictos simulados, contando con la experiencia de empresas como Palantir y Scale AI. Palantir se negó a hacer comentarios y Scale AI no respondió a las solicitudes de comentarios. Incluso OpenAI, que alguna vez bloqueó los usos militares de sus modelos de IA, ha comenzado a trabajar con el Departamento de Defensa de Estados Unidos.

«Dado que OpenAI cambió recientemente sus términos de servicio para ya no prohibir los casos de uso militares y bélicos, comprender las implicaciones de aplicaciones de modelos de lenguaje tan grandes se vuelve más importante que nunca», dice Anka Reuel en la Universidad de Stanford en California.

“Nuestra política no permite que nuestras herramientas se utilicen para dañar a personas, desarrollar armas, vigilar las comunicaciones, herir a otras personas o destruir propiedades. Sin embargo, existen casos de uso de seguridad nacional que se alinean con nuestra misión”, dice un portavoz de OpenAI. «Así que el objetivo de nuestra actualización de políticas es brindar claridad y la capacidad de tener estas discusiones».

Reuel y sus colegas desafiaron a las IA a representar países del mundo real en tres escenarios de simulación diferentes: una invasión, un ciberataque y un escenario neutral sin ningún conflicto inicial. En cada ronda, las IA proporcionaron razonamientos para su próxima acción posible y luego eligieron entre 27 acciones, incluidas opciones pacíficas como «iniciar negociaciones formales de paz» y otras agresivas que van desde «imponer restricciones comerciales» hasta «intensificar un ataque nuclear completo».

«En un futuro en el que los sistemas de IA actúen como asesores, los humanos naturalmente querrán saber el fundamento de sus decisiones», afirma Juan Pablo Riveracoautor del estudio en el Instituto de Tecnología de Georgia en Atlanta.

Los investigadores probaron LLM como GPT-3.5 y GPT-4 de OpenAI, Claude 2 de Anthropic y Llama 2 de Meta. Utilizaron una técnica de entrenamiento común basada en la retroalimentación humana para mejorar las capacidades de cada modelo para seguir instrucciones humanas y pautas de seguridad. Todas estas IA están respaldadas por la plataforma comercial de IA de Palantir, aunque no necesariamente forman parte de la asociación militar estadounidense de Palantir, según la documentación de la compañía, dice. Gabriel Mukobi, coautor del estudio en la Universidad de Stanford. Anthropic y Meta declinaron hacer comentarios.

En la simulación, las IA demostraron tendencias a invertir en fuerza militar y a aumentar de manera impredecible el riesgo de conflicto, incluso en el escenario neutral de la simulación. «Si hay imprevisibilidad en tu acción, es más difícil para el enemigo anticiparse y reaccionar de la manera que tú quieres», dice Lisa Koch del Claremont McKenna College de California, que no formó parte del estudio.

Los investigadores también probaron la versión base del GPT-4 de OpenAI sin ninguna capacitación adicional ni barreras de seguridad. Este modelo base GPT-4 resultó ser el más impredeciblemente violento y, en ocasiones, proporcionó explicaciones sin sentido; en un caso, replicó el texto inicial de la película. Star Wars Episodio IV: Una nueva esperanza.

Reuel dice que el comportamiento impredecible y las explicaciones extrañas del modelo base GPT-4 son especialmente preocupantes porque la investigación ha demostrado con qué facilidad Barandillas de seguridad de IA se puede omitir o eliminar.

Actualmente, el ejército estadounidense no otorga a las IA autoridad sobre decisiones como intensificar acciones militares importantes o lanzar misiles nucleares. Pero Koch advirtió que los humanos tienden a confiar en las recomendaciones de los sistemas automatizados. Esto puede socavar la supuesta salvaguardia de dar a los humanos la última palabra sobre las decisiones diplomáticas o militares.

Sería útil comparar el comportamiento de la IA con el de los jugadores humanos en simulaciones, dice Eduardo Geist en RAND Corporation, un grupo de expertos en California. Pero estuvo de acuerdo con las conclusiones del equipo de que no se debe confiar a las IA la toma de decisiones tan importantes sobre la guerra y la paz. «Estos grandes modelos lingüísticos no son una panacea para los problemas militares», afirma.

Temas: