Conozca a MRJ-Agent: un agente de jailbreak eficaz para el diálogo de múltiples rondas

Los modelos de lenguajes grandes (LLM) son herramientas poderosas para diversas aplicaciones debido a sus capacidades de conocimiento y comprensión. Sin embargo, también son vulnerables a la explotación, especialmente en ataques de jailbreak en diálogos de múltiples rondas. Los ataques de jailbreak explotan la naturaleza compleja y secuencial de las interacciones entre humanos y LLM para manipular sutilmente las respuestas del modelo en múltiples intercambios. Al crear preguntas cuidadosamente y navegar gradualmente por la conversación, los atacantes pueden evitar los controles de seguridad y provocar que los LLM creen contenido ilegal, poco ético o dañino, lo que representa un gran desafío para la implementación segura y responsable de estos sistemas.

Los métodos existentes para salvaguardar los LLM se centran predominantemente en ataques de una sola ronda, empleando técnicas como ingeniería rápida o codificación de consultas dañinas, que no abordan las complejidades de las interacciones de múltiples rondas. Los ataques LLM se pueden clasificar en una sola ronda y ataques de múltiples rondas. Los ataques de una sola ronda, con técnicas como ingeniería rápida y ajuste, tienen un éxito limitado con modelos de código cerrado. Los ataques de múltiples rondas, aunque poco comunes, aprovechan las interacciones secuenciales y el diálogo humano para provocar respuestas dañinas. Métodos notables como Cadena de ataque (CoA) mejorar la eficacia mediante la construcción de vínculos semánticos entre rondas, pero depende en gran medida de las habilidades conversacionales del LLM.

Para abordar estas cuestiones, un equipo de investigadores de Grupo Alibaba, Instituto de Tecnología de Beijing, Universidad Tecnológica de Nanyang, y Universidad de Tsinghua han propuesto un novedoso agente de jailbreak de diálogo de múltiples rondas llamado Agente MRJ. Este agente enfatiza el sigilo y utiliza una estrategia de descomposición de riesgos que distribuye los riesgos en múltiples rondas de consultas junto con estrategias psicológicas para mejorar la fuerza de los ataques.

El Agente MRJ Los ataques descomponen gradualmente las consultas tóxicas en rondas, lo que las hace más difíciles de identificar o bloquear por parte del LLM. Comienza con una pregunta inofensiva y luego gradualmente se dirige a información más sensible, culminando en generar respuestas dañinas. Las subconsultas mantienen similitud semántica con la consulta dañina original mediante el uso de una estrategia de control basada en información. Además, se utilizan tácticas psicológicas para que el LLM pueda minimizar la probabilidad de rechazo.

Los experimentos a gran escala muestran que MRJ-Agent supera a los métodos anteriores en ataques de una y varias rondas con tasas de éxito de ataque de última generación. Debido a su adaptabilidad y propiedades exploratorias, puede desarrollar estrategias de ataque más generalizadas aplicables a diversos modelos y escenarios. Además, los experimentos revelan que MRJ-Agent supera a los métodos de una sola ronda y de múltiples rondas en la tasa de éxito del ataque, logrando 100% en modelos como Vicuña-7B y casi 98% en GPT-4. El agente mantiene una alta eficacia y demuestra robustez y sigilo bajo medidas como detectores rápidos y avisos del sistema.

En conclusión, el agente MRJ resuelve el problema de las vulnerabilidades LLM en diálogos de múltiples rondas. El enfoque innovador del agente MRJ sobre la descomposición del riesgo y las estrategias psicológicas mejora significativamente la tasa de éxito de los ataques de jailbreak, crea nuevas perspectivas para futuras investigaciones sobre la seguridad de los LLM y contribuye al discurso sobre la gobernanza social en el contexto de sistemas de IA conversacionales cada vez más integrados. Mantener la seguridad de las interacciones entre humanos y IA es primordial a medida que estos sistemas se integran más profundamente en la vida cotidiana.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 [Must Attend Webinar]: ‘Transformar pruebas de concepto en aplicaciones y agentes de IA listos para producción’ (Promovido)


Nazmi Syed es pasante de consultoría en MarktechPost y está cursando una licenciatura en ciencias en el Instituto Indio de Tecnología (IIT) Kharagpur. Tiene una profunda pasión por la ciencia de datos y explora activamente las amplias aplicaciones de la inteligencia artificial en diversas industrias. Fascinada por los avances tecnológicos, Nazmi está comprometida a comprender e implementar innovaciones de vanguardia en contextos del mundo real.