‘Ataque de jailbreak de débil a fuerte’: un método de inteligencia artificial eficiente para atacar LLM alineados y producir texto dañino

Los modelos de lenguaje grande (LLM) conocidos como ChatGPT y Llama han avanzado recientemente y han mostrado un rendimiento increíble en una serie de aplicaciones de inteligencia artificial (IA). Aunque estos modelos han demostrado capacidades en tareas como generación de contenido, respuesta a preguntas, resumen de texto, etc., existen preocupaciones sobre posibles abusos, como la difusión de información falsa y asistencia para actividades ilegales. Los investigadores han estado tratando de garantizar un uso responsable mediante la implementación de mecanismos de alineación y medidas de seguridad en respuesta a estas preocupaciones.

Las precauciones de seguridad típicas incluyen el uso de inteligencia artificial y retroalimentación humana para detectar resultados dañinos y el uso del aprendizaje por refuerzo para optimizar los modelos para aumentar la seguridad. A pesar de sus enfoques meticulosos, es posible que estas salvaguardias no siempre puedan detener el uso indebido. Los informes del equipo rojo han demostrado que incluso después de grandes esfuerzos para alinear los modelos de lenguaje grandes y mejorar su seguridad, estos modelos meticulosamente alineados aún pueden ser vulnerables al jailbreak a través de indicaciones, ajustes o decodificación hostiles.

En una investigación reciente, un equipo de investigadores se ha centrado en los ataques de jailbreak, que son ataques automatizados que tienen como objetivo puntos críticos en el funcionamiento del modelo. En estos ataques, se crean indicaciones adversas, se utiliza decodificación adversaria para manipular la creación de texto, el modelo se ajusta para cambiar comportamientos básicos y se encuentran indicaciones hostiles mediante retropropagación.

El equipo ha introducido el concepto de una estrategia de ataque única llamada jailbreaking de débil a fuerte, que muestra cómo los modelos inseguros más débiles pueden desviar incluso los LLM más potentes y seguros, lo que genera resultados no deseados. Al utilizar esta táctica, los oponentes podrían maximizar el daño y al mismo tiempo requerir menos recursos al utilizar un modelo pequeño y destructivo para influir en las acciones de un modelo más grande.

Los adversarios utilizan LLM más pequeños, inseguros o alineados, como 7 B, para dirigir el proceso de jailbreak contra LLM alineados y mucho más grandes, como 70B. Lo importante es que, a diferencia de decodificar cada uno de los LLM más grandes por separado, el jailbreak solo requiere decodificar dos LLM más pequeños una vez, lo que resulta en menos procesamiento y latencia.

El equipo ha resumido sus tres contribuciones principales para comprender y aliviar las vulnerabilidades en los LLM alineados con la seguridad, que son las siguientes.

  1. Análisis de fragilidad de la distribución de tokens: el equipo ha estudiado las formas en que los LLM alineados con seguridad se vuelven vulnerables a ataques adversarios, identificando los momentos en los que se producen cambios en la distribución de tokens en las primeras fases de la creación de texto. Este entendimiento aclara los momentos cruciales en los que las aportaciones hostiles pueden potencialmente engañar a los LLM.
  1. Jailbreak de débil a fuerte: se ha introducido una metodología de ataque única conocida como jailbreak de débil a fuerte. Al utilizar este método, los atacantes pueden utilizar modelos más débiles y posiblemente peligrosos como guía para decodificar procesos en LLM más potentes, lo que hace que estos modelos más potentes generen datos no deseados o dañinos. Su eficiencia y simplicidad de uso quedan demostradas por el hecho de que sólo requiere un pase hacia adelante y hace muy pocas suposiciones sobre los recursos y talentos del oponente.
  1. Validación experimental y estrategia defensiva: la eficacia de los ataques de jailbreak de débiles a fuertes se ha evaluado mediante experimentos exhaustivos llevados a cabo en una variedad de LLM de varias organizaciones. Estas pruebas no sólo han demostrado el éxito del ataque, sino que también han puesto de relieve la urgente necesidad de contar con defensas fuertes. También se ha elaborado un plan defensivo preliminar para mejorar la alineación del modelo como defensa contra estas estrategias adversas, apoyando el esfuerzo más amplio para fortalecer los LLM contra posibles abusos.

En conclusión, los ataques de jailbreak de débiles a fuertes resaltan la necesidad de fuertes medidas de seguridad en la creación de LLM alineados y presentan un nuevo punto de vista sobre su vulnerabilidad.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.