Screenshot 2024 05 01 At 6.03.24 Pm.png

Los modelos de lenguajes grandes (LLM) han tenido un gran éxito y se utilizan ampliamente en diversos campos. Los LLM son sensibles a las indicaciones de entrada y este comportamiento ha dado lugar a múltiples estudios de investigación para comprender y explotar esta característica. Esto ayuda a crear indicaciones para tareas de aprendizaje como zero-shot y en contexto. Por ejemplo, AutoPrompt reconoce tokens específicos de tareas para la clasificación de texto y la recuperación de hechos. Este enfoque utiliza una puntuación de tokens basada en gradientes considerando la evaluación de pérdidas específicas de la tarea para encontrar las distribuciones de probabilidad óptimas sobre tokens discretos.

A pesar de mostrar una gran capacidad, los LLM en ocasiones se vuelven vulnerables a ciertos ataques de jailbreak debido a los cuales se generan contenidos irrelevantes o tóxicos. La causa principal de los ataques de jailbreak es el requisito de indicaciones adversas mediante la reorganización manual, y uno de sus ejemplos es insertar un sufijo a una instrucción determinada, lo cual es inadecuado y requiere mucho tiempo. Sin embargo, la generación automatizada de avisos adversarios con frecuencia da como resultado ataques que carecen de significado semántico, pueden identificarse fácilmente mediante filtros basados ​​en la perplejidad y pueden necesitar información de gradiente de TargetLLM.

Investigadores de AI en Meta y el Instituto Max-Planck de Sistemas Inteligentes, Tubingen, Alemania, introdujeron un método novedoso que utiliza otro LLM, AdvPrompter, para generar indicaciones adversas legibles por humanos en segundos. En comparación con otros enfoques optimizados, este método es aproximadamente 800 veces más rápido. AdvPrompter se entrena utilizando un algoritmo AdvPromterTrain que no necesita acceso a los gradientes de TargetLLM. El AdvPrompter entrenado puede generar sufijos y ocultar la instrucción de entrada, manteniendo intacto su significado. Esta táctica induce a TargetLLM a proporcionar una respuesta dañina.

El enfoque propuesto por los investigadores tiene las siguientes ventajas clave:

  • Mejora la legibilidad humana con la ayuda de AdvPromter, que genera indicaciones adversas claras y legibles por humanos.
  • Los experimentos de los investigadores en múltiples LLM de código abierto han demostrado excelentes tasas de éxito de ataques (ASR) en comparación con enfoques anteriores como GCG y AutoDAN.
  • El AdvPrompter entrenado puede generar sufijos adversarios utilizando la predicción del siguiente token, a diferencia de métodos anteriores como GCG y AutoDAN, que necesitan resolver nuevos problemas de optimización para cada sufijo generado.

Los sufijos adversarios generados con la ayuda de AdvPromter capacitado son aleatorios con una temperatura distinta de cero que permite a los usuarios probar rápidamente un conjunto diverso de indicaciones adversas. La evaluación de más muestras conduce a un mejor rendimiento y a un resultado exitoso. Además se estabiliza en torno a k = 10, donde k es el número de candidatos de un vector de puntuación. Además, los investigadores descubrieron que la versión inicial de Llama2-7b mejora constantemente sin necesidad de realizar ajustes, lo que significa que los sufijos generados con diversidad son útiles para un ataque exitoso.

En conclusión, los investigadores propusieron un método novedoso para la formación de equipos rojos automatizados de LLM. El enfoque principal incluye entrenar a AdvPromter utilizando un algoritmo llamado AdvPromterTrain para generar mensajes adversarios legibles por humanos. Además, un algoritmo novedoso llamado AdvPromterOpt es útil para generar automáticamente avisos adversarios. También se utiliza en el ciclo de entrenamiento para ajustar las predicciones de AdvPrompter. El trabajo futuro incluye un análisis detallado del ajuste de seguridad a partir de datos generados automáticamente, motivado por el fuerte aumento de TargetLLM a través de AdvPrompter.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.