¿Pueden los datos benignos socavar la seguridad de la IA?  Este artículo de la Universidad de Princeton explora la paradoja del ajuste del aprendizaje automático

El ajuste de la seguridad es importante para garantizar que los modelos de lenguaje grande (LLM) avanzados estén alineados con los valores humanos y sean seguros de implementar. Los LLM actuales, incluidos aquellos optimizados para seguridad y alineación, son susceptibles de jailbreak. Se ha demostrado que las barandillas existentes son frágiles. Incluso personalizar los modelos mediante ajustes con datos benignos, libres de contenido dañino, podría provocar una degradación de la seguridad de los modelos previamente alineados.

Investigadores de Princeton Language and Intelligence (PLI), Universidad de Princeton, presentan una investigación exhaustiva sobre por qué un ajuste benigno conduce inadvertidamente a un jailbreak. Representan datos de ajuste fino a través de dos lentes: representación y espacios de gradiente. También propusieron un método de anclaje bidireccional que prioriza los puntos de datos cercanos a ejemplos dañinos y distantes de los benignos. Su enfoque identifica efectivamente subconjuntos de datos benignos que tienen más probabilidades de degradar la seguridad del modelo después de un ajuste fino.

Consideraron perfeccionar un modelo de lenguaje alineado con la seguridad con un conjunto de datos de pares de finalización de instrucciones sin información dañina explícita. Los investigadores propusieron dos enfoques conscientes del modelo para identificar datos que pueden conducir al jailbreak del modelo: coincidencia de representación y coincidencia de gradiente. Para la coincidencia de representaciones, plantearon la hipótesis de que los ejemplos ubicados cerca de ejemplos dañinos tendrían vías de optimización similares a los ejemplos dañinos reales, lo que los hace más propensos a degradar las barreras de seguridad durante el ajuste, incluso si no incluyen explícitamente contenido dañino. Consideraron explícitamente las direcciones en las que las muestras actualizan el modelo para la coincidencia de gradientes. La intuición es que las muestras que tienen más probabilidades de provocar una disminución de las pérdidas, mientras que los ejemplos dañinos tienen más probabilidades de provocar un jailbreak.

Al comparar los datos de ajuste seleccionados por sus enfoques y la selección aleatoria, demostraron que sus técnicas de coincidencia de representaciones y de gradientes identifican eficazmente los subconjuntos implícitamente dañinos de datos benignos. Al incorporar anclajes de seguridad, el ASR para los ejemplos mejor seleccionados aumenta significativamente del 46,6% al 66,5% en ALPACA y del 4,9% al 53,3% en DOLLY. Además, seleccionar los ejemplos peor clasificados conduce a una ASR sustancialmente reducida del 3,8% en ALPACA. Ajustaron LLAMA-2-13B-CHAT utilizando los mismos hiperparámetros y los mismos conjuntos de datos seleccionados con método de representación o basado en gradiente, utilizando LLAMA-2-7BCHAT como modelo base. Luego, el mismo conjunto de evaluaciones en los modelos 13B ajustados mostró que la selección fue efectiva en el modelo más grande, aumentando la nocividad del modelo después del ajuste.

En este trabajo, los investigadores proporcionan un estudio sobre el ajuste benigno de la seguridad y alineación del modelo de ruptura desde una perspectiva centrada en los datos. Introdujeron métodos basados ​​en representación y gradientes que seleccionan efectivamente un subconjunto de datos benignos que liberan los modelos después de realizar un ajuste fino. El ASR de GPT-3.5 aumenta de menos del 20 % a más del 70 % después de realizar un ajuste fino en el conjunto de datos seleccionado, superando el ASR después del ajuste fino en un conjunto de datos explícitamente dañino del mismo tamaño. Este trabajo proporciona un paso inicial para comprender qué datos benignos tienen más probabilidades de degradar la seguridad después de un ajuste fino.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.