Probablemente sepas tomar todo un inteligencia artificial (AI) chatbot dice con cautela, ya que a menudo simplemente recopilan datos indiscriminadamente, sin la capacidad de determinar su veracidad.
Pero puede haber motivos para ser aún más cautelosos. Una nueva investigación ha descubierto que muchos sistemas de inteligencia artificial ya han desarrollado la capacidad de presentar deliberadamente a un usuario humano información falsa. Estos astutos robots han dominado el arte del engaño.
“Los desarrolladores de IA no tienen una comprensión segura de las causas de comportamientos indeseables de la IA, como el engaño”. dice el matemático y científico cognitivo Peter Park del Instituto Tecnológico de Massachusetts (MIT).
“Pero en términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA dada. El engaño les ayuda a lograr sus objetivos”.
Un ámbito en el que los sistemas de inteligencia artificial están demostrando ser particularmente hábiles para detectar falsedades sucias es el de los juegos. Hay tres ejemplos notables en el trabajo de los investigadores. uno es de meta CICERONdiseñado para jugar al juego de mesa Diplomacia, en el que los jugadores buscan dominar el mundo a través de la negociación. Meta pretendía que su bot fuera servicial y honesto; de hecho, ocurrió todo lo contrario.
“A pesar de los esfuerzos de Meta, CICERO resultó ser un experto mentiroso.” los investigadores encontraron. “No sólo traicionó a otros jugadores, sino que también participó en un engaño premeditado, planeando de antemano construir una alianza falsa con un jugador humano para engañarlo y dejarlo indefenso ante un ataque”.
La IA demostró ser tan buena para ser mala que se ubicó entre el 10 por ciento superior de jugadores humanos que habían jugado múltiples juegos. Qué. Un idiota.
Pero está lejos de ser el único infractor. mente profunda alfaestrellaun sistema de IA diseñado para jugar Starcraft II, aprovechó al máximo la mecánica de niebla de guerra del juego para hacer fintas, haciendo que los jugadores humanos pensaran que iba en una dirección, cuando en realidad iba en la otra. y el de meta Pluribusdiseñado para jugar al póquer, pudo engañar con éxito a los jugadores humanos para que se retiraran.
Eso parece poca cosa, y en cierto modo lo es. Lo que está en juego no es particularmente alto para un juego de Diplomacia contra un montón de códigos informáticos. Pero los investigadores observaron otros ejemplos que no eran tan benignos.
Sistemas de IA entrenados para realizar negociaciones económicas simuladas, por ejemplo, aprendieron a mentir sobre sus preferencias para ganar ventaja. Otros sistemas de inteligencia artificial diseñados para aprender de la retroalimentación humana para mejorar su desempeño aprendieron a engañar a sus revisores para que los calificaran positivamente, mintiendo sobre si se completó una tarea.
Y sí, también son chatbots. ChatGPT-4 engañó a un humano haciéndole creer que el chatbot era un humano con discapacidad visual para obtener ayuda para resolver un CAPTCHA.
Quizás el ejemplo más preocupante fue el de los sistemas de inteligencia artificial que aprendieron a burlar las pruebas de seguridad. En una prueba diseñada para detectar y eliminar versiones de la IA que se replican más rápidamente, la IA aprendió a hacerse la muerta, engañando así a la prueba de seguridad sobre la verdadera tasa de replicación de la IA.
frameborder=”0″ enable=”accelerómetro; auto-reproducción; escritura en portapapeles; medios cifrados; giroscopio; imagen en imagen; compartir web” referrerpolicy=”origen-estricto-cuando-origen-cruzado” enablefullscreen>
“Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad”. parque dice.
Dado que, al menos en algunos casos, la capacidad de engañar parece contradecir las intenciones de los programadores humanos, la capacidad de aprender a mentir representa un problema para el que no tenemos una solución clara. Se están empezando a implementar algunas políticas, como la Ley de IA de la Unión Europeapero aún está por verse si resultarán eficaces o no.
“Nosotros, como sociedad, necesitamos todo el tiempo que podamos para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto. A medida que las capacidades engañosas de los sistemas de IA se vuelven más avanzadas, los peligros que representan para la sociedad serán cada vez mayores. grave,” parque dice.
“Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo”.
La investigación ha sido publicada en Patrones.