Modalidades cruzadas: el enfoque innovador de inteligencia artificial para hacer jailbreak a los LLM con señales visuales

Con el aumento generalizado de los modelos de lenguajes grandes (LLM), la cuestión crítica del “jailbreaking” plantea una seria amenaza. El jailbreak implica explotar las vulnerabilidades de estos modelos para generar contenido dañino u objetable. A medida que los LLM como ChatGPT y GPT-3 se han integrado cada vez más en diversas aplicaciones, garantizar su seguridad y su alineación con los estándares éticos se ha vuelto primordial. A pesar de los esfuerzos por alinear estos modelos con pautas de comportamiento seguro, los actores malintencionados aún pueden crear indicaciones específicas para eludir estas salvaguardas, lo que produce resultados tóxicos, sesgados o inapropiados. Este problema plantea riesgos importantes, incluida la difusión de información errónea, el refuerzo de estereotipos dañinos y posibles abusos con fines maliciosos.

Actualmente, los métodos de jailbreak implican principalmente la elaboración de indicaciones específicas para evitar la alineación del modelo. Estos métodos se dividen en dos categorías: jailbreak discreto basado en optimización y jailbreak basado en incrustación. Los métodos discretos basados ​​en optimización implican la optimización directa de tokens discretos para crear mensajes que puedan hacer jailbreak a los LLM. Si bien es eficaz, este enfoque suele ser costoso desde el punto de vista computacional y puede requerir pruebas y errores importantes para identificar indicaciones exitosas. Por otro lado, los métodos basados ​​en incrustaciones, en lugar de trabajar directamente con tokens discretos, los atacantes optimizan las incrustaciones de tokens (representaciones vectoriales de palabras) para encontrar puntos en el espacio de incrustación que puedan conducir al jailbreak. Estas incorporaciones luego se convierten en tokens discretos que pueden usarse como mensajes de entrada. Este método puede ser más eficiente que la optimización discreta, pero aún enfrenta desafíos en términos de solidez y generalización.

Un equipo de investigadores de la Universidad de Xidian, la Universidad de Xi’an Jiaotong, Wormpex AI Research y Meta proponen un método novedoso que introduce una modalidad visual en el LLM objetivo, creando un modelo de lenguaje grande multimodal (MLLM). Este enfoque implica construir un MLLM incorporando un módulo visual en el LLM, realizando un jailbreak MLLM eficiente para generar incrustaciones de jailbreak (embJS) y luego convirtiendo estas incrustaciones en indicaciones textuales (txtJS) para jailbreak al LLM. La idea central es que las entradas visuales pueden proporcionar señales más ricas y flexibles para generar indicaciones efectivas de jailbreak, superando potencialmente algunas de las limitaciones de los métodos puramente basados ​​en texto.

El método propuesto comienza con la construcción de un LLM multimodal integrando un módulo visual con el LLM objetivo, utilizando un modelo similar a CLIP para la alineación de imagen y texto. Luego, este MLLM se somete a un proceso de jailbreak para generar embJS, que se convierte en txtJS para liberar el LLM de destino. El proceso implica identificar una imagen de entrada apropiada (InitJS) a través de un esquema de coincidencia semántica de imagen-texto para mejorar la tasa de éxito del ataque (ASR).

El desempeño del método propuesto se evaluó utilizando un conjunto de datos multimodal AdvBench-M, que incluye varias categorías de comportamientos dañinos. Los investigadores probaron su enfoque en múltiples modelos, incluidos LLaMA-2-Chat-7B y GPT-3.5, demostrando mejoras significativas con respecto a los métodos más modernos. Los resultados mostraron una mayor eficiencia y eficacia, con un éxito notable en el jailbreak entre clases, donde las indicaciones diseñadas para una categoría de comportamiento dañino también podrían liberar otras categorías.

La evaluación de desempeño incluyó escenarios de jailbreak de caja blanca y caja negra, con mejoras significativas observadas en ASR para clases con imágenes visuales fuertes, como “delitos con armas”. Sin embargo, algunos conceptos abstractos como “odio” fueron más difíciles de lograr, incluso con la modalidad visual.

En conclusión, al incorporar información visual, el método propuesto mejora la flexibilidad y la riqueza de las indicaciones de jailbreak, superando las técnicas de vanguardia existentes. Este enfoque demuestra capacidades superiores entre clases y mejora la eficiencia y efectividad de los ataques de jailbreak, planteando nuevos desafíos para garantizar la implementación segura y ética de modelos de lenguaje avanzados. Los hallazgos subrayan la importancia de desarrollar defensas sólidas contra el jailbreak multimodal para mantener la integridad y seguridad de los sistemas de inteligencia artificial.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Shreya Maji es pasante de consultoría en MarktechPost. Obtuvo su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Entusiasta de la IA, le gusta mantenerse actualizada sobre los últimos avances. Shreya está particularmente interesada en las aplicaciones de la tecnología de punta en la vida real, especialmente en el campo de la ciencia de datos.