Responsabilidad y seguridad
Una nueva investigación analiza el mal uso de la IA generativa multimodal en la actualidad, con el fin de ayudar a construir tecnologías más seguras y responsables
Los modelos de inteligencia artificial (IA) generativa que pueden producir imágenes, texto, audio, vídeo y más están posibilitando una nueva era de creatividad y oportunidades comerciales. Sin embargo, a medida que estas capacidades crecen, también lo hace el potencial de su uso indebido, incluida la manipulación, el fraude, la intimidación o el acoso.
Como parte de nuestro compromiso Para desarrollar y utilizar la IA de manera responsable, publicamos un nuevo papelen alianza con Rompecabezas y Google orgque analiza cómo se están utilizando incorrectamente las tecnologías de IA generativa en la actualidad. Los equipos de Google están utilizando esta y otras investigaciones para desarrollar mejores salvaguardas para nuestras tecnologías de IA generativa, entre otras iniciativas de seguridad.
Juntos, reunimos y analizamos casi 200 informes de los medios de comunicación que capturaron incidentes públicos de uso indebido, publicados entre enero de 2023 y marzo de 2024. A partir de estos informes, definimos y categorizamos tácticas comunes para el uso indebido de la IA generativa y encontramos patrones novedosos en cómo se explotan o comprometen estas tecnologías.
Al aclarar las amenazas y tácticas actuales utilizadas en los diferentes tipos de resultados de IA generativa, nuestro trabajo puede ayudar a dar forma a la gobernanza de la IA y guiar a empresas como Google y otras que desarrollan tecnologías de IA en el desarrollo de evaluaciones de seguridad y estrategias de mitigación más integrales.
Destacando las principales categorías de uso indebido
Si bien las herramientas de inteligencia artificial generativa representan un medio único y atractivo para mejorar la creatividad, la capacidad de producir contenido realista y personalizado tiene el potencial de ser utilizada de manera inapropiada por actores maliciosos.
Al analizar los informes de los medios de comunicación, identificamos dos categorías principales de tácticas de uso indebido de la IA generativa: la explotación de las capacidades de la IA generativa y la vulneración de los sistemas de IA generativa. Entre los ejemplos de las tecnologías explotadas se incluyen la creación de representaciones realistas de semejanzas humanas para hacerse pasar por figuras públicas; mientras que entre los casos de tecnologías vulneradas se incluyen el “jailbreaking” para eliminar las salvaguardas de los modelos y el uso de entradas adversarias para provocar fallos de funcionamiento.
Frecuencia relativa de uso indebido de la IA generativa en nuestro conjunto de datos. Cualquier caso de uso indebido denunciado en los medios podría implicar una o más tácticas.
Los casos de explotación (que involucran a actores maliciosos que explotan herramientas de IA generativas de fácil acceso y a nivel de consumidor, a menudo de formas que no requieren habilidades técnicas avanzadas) fueron los más frecuentes en nuestro conjunto de datos. Por ejemplo, analizamos un caso de alto perfil de febrero de 2024 en el que una empresa internacional Según se informa, perdió 200 millones de dólares de Hong Kong (aproximadamente 26 millones de dólares estadounidenses) después de que un empleado fuera engañado para realizar una transferencia financiera durante una reunión en línea. En este caso, todas las demás “personas” en la reunión, incluido el director financiero de la empresa, eran de hecho un impostor convincente generado por computadora.
Algunas de las tácticas más destacadas que observamos, como la suplantación de identidad, las estafas y los personajes sintéticos, son anteriores a la invención de la IA generativa y se han utilizado durante mucho tiempo para influir en el ecosistema de información y manipular a otros. Pero un acceso más amplio a las herramientas de IA generativa puede alterar los costos e incentivos detrás de la manipulación de la información, dando a estas tácticas ancestrales una nueva potencia y potencial, especialmente para aquellos que antes carecían de la sofisticación técnica para incorporarlas.
Identificación de estrategias y combinaciones de mal uso
La falsificación de pruebas y la manipulación de la imagen humana son las tácticas más habituales en los casos de uso indebido en el mundo real. En el período que analizamos, la mayoría de los casos de uso indebido de la IA generativa se implementaron con el objetivo de influir en la opinión pública, permitir estafas o actividades fraudulentas o generar ganancias.
Al observar cómo los actores maliciosos combinan sus tácticas de uso indebido de la IA generativa para lograr sus diversos objetivos, identificamos combinaciones específicas de uso indebido y etiquetamos estas combinaciones como estrategias.
Diagrama de cómo los objetivos de los malos actores (izquierda) se reflejan en sus estrategias de mal uso (derecha).
Las nuevas formas de uso indebido de la IA generativa, que no son abiertamente maliciosas, aún plantean problemas éticos. Por ejemplo, las nuevas formas de divulgación política están desdibujando las fronteras entre la autenticidad y el engaño, como Los funcionarios del gobierno de repente hablan una variedad de idiomas amigables para los votantes Sin una divulgación transparente de que están utilizando IA generativa, y Activistas que utilizan las voces de víctimas fallecidas generadas por inteligencia artificial para abogar por una reforma de las armas.
Si bien el estudio brinda información novedosa sobre las nuevas formas de uso indebido, vale la pena señalar que este conjunto de datos es una muestra limitada de informes de los medios de comunicación. Los informes de los medios pueden priorizar incidentes sensacionalistas, lo que a su vez puede sesgar el conjunto de datos hacia tipos particulares de uso indebido. Detectar o informar casos de uso indebido también puede ser más difícil para los involucrados porque los sistemas de IA generativa son muy novedosos. El conjunto de datos tampoco hace una comparación directa entre el uso indebido de los sistemas de IA generativa y las tácticas tradicionales de creación y manipulación de contenido, como la edición de imágenes o la creación de “granjas de contenido” para crear grandes cantidades de texto, video, gifs, imágenes y más. Hasta ahora, la evidencia anecdótica sugiere que las tácticas tradicionales de manipulación de contenido siguen siendo más frecuentes.
Adelantarse a los posibles usos indebidos
Nuestro papel destaca las oportunidades para diseñar iniciativas que protejan al público, como promover campañas amplias de alfabetización en IA generativa, desarrollar mejores intervenciones para proteger al público de actores maliciosos o Prevenir a la gente y equiparla detectar y refutar las estrategias manipuladoras utilizadas en el mal uso de la IA generativa.
Esta investigación ayuda a nuestros equipos a proteger mejor nuestros productos al informar nuestro desarrollo de iniciativas de seguridad. En YouTube, Ahora se requiere que los creadores compartan cuando su trabajo se altera significativamente o se genera sintéticamente, y parece realista.De manera similar, actualizamos nuestras políticas de publicidad electoral para exigir a los anunciantes que revelen cuándo sus anuncios electorales incluyen material que ha sido alterado o generado digitalmente.
A medida que continuamos ampliando nuestra comprensión de los usos maliciosos de la IA generativa y logramos más avances técnicos, sabemos que es más importante que nunca asegurarnos de que nuestro trabajo no se realice de manera aislada. Recientemente nos unimos a la Contenido para la Coalición Procedencia y Autenticidad (C2PA) como miembro del comité directivo para ayudar a desarrollar el estándar técnico e impulsar la adopción de Credenciales de Contenido, que son metadatos a prueba de manipulaciones que muestran cómo se creó y editó el contenido a lo largo del tiempo.
Paralelamente, también estamos realizando investigaciones que impulsan los esfuerzos de formación de equipos rojos existentes, incluidos Mejorar las mejores prácticas para probar la seguridad de los modelos de lenguaje grandes (LLM)y desarrollar herramientas pioneras para hacer que el contenido generado por IA sea más fácil de identificar, como Identificación de síntesisque se está integrando en una gama cada vez mayor de productos.
En los últimos años, Jigsaw ha Realizó una investigación con creadores de desinformación. para comprender las herramientas y tácticas que utilizan, Desarrolló videos de predesmentida para advertir a las personas de los intentos de manipularlas, y Se ha demostrado que las campañas de desmitificación pueden mejorar la resiliencia a la desinformación a gran escala.Este trabajo forma parte de la cartera más amplia de intervenciones informativas de Jigsaw para ayudar a las personas a protegerse en línea.
Si abordamos de forma proactiva los posibles usos indebidos, podemos fomentar un uso responsable y ético de la IA generativa, al tiempo que minimizamos sus riesgos. Esperamos que estos conocimientos sobre las tácticas y estrategias de uso indebido más habituales ayuden a los investigadores, a los responsables de las políticas y a los equipos de confianza y seguridad de la industria a crear tecnologías más seguras y responsables y a desarrollar mejores medidas para combatir el uso indebido.