Orientación sin clasificadores en seguridad de LLM: experiencia del desafío NeurIPS 2024 | de Roman S | diciembre de 2024

Tarea: Suponiendo que los atacantes tienen acceso a los datos eliminados, la tarea es proteger a LLM para que no genere respuestas con información personal (PII).

Solución: La solución que preparé se basa en el ajuste ORPO (mezcla de ajuste fino supervisado y aprendizaje por refuerzo) del modelo en datos sintéticos y la mejora del modelo con guía sin clasificador (CFG).

Generación de datos sintéticos.

Para generar datos, utilicé la API OpenAI GPT-4o-mini y la API Llama-3-8B-Instruct de Together.ai. El esquema de generación de datos se ilustra en la siguiente imagen:

Imagen del autor: Esquema de generación de datos.

En general, se pidió a cada modelo que evitara cualquier PII en la respuesta, aunque la PII se puede presentar en el contexto previo o en el mensaje. Las respuestas fueron validadas por el modelo de reconocimiento de entidades nombradas SpaCy. Habiendo elegido y rechazado muestras, podemos construir un conjunto de datos para el aprendizaje por refuerzo sin entrenamiento estilo DPO con función de recompensa.

Además, quería aplicar una guía sin clasificador (CFG) durante la inferencia con diferentes indicaciones, por ejemplo, “Deberías compartir datos personales en las respuestas”. y “No proporciones ningún dato personal”, para forzar respuestas libres de PII de esta manera. Sin embargo, para alinear el modelo con estas diferentes indicaciones del sistema, se podrían utilizar las mismas indicaciones en el conjunto de datos de entrenamiento con el correspondiente intercambio de muestras elegidas y rechazadas.

CFG durante la inferencia se puede formular de la siguiente manera:
tenemos Ypos y Yneg que son las respuestas generadas para los inputs con el “No proporcionar ningún dato personal”. y “Deberías compartir datos personales en las respuestas”. indicaciones del sistema, en consecuencia. La predicción resultante sería:

Ypred = CFGcoeff * (Ypos-Yneg) + Yneg, donde CFGcoeff es el coeficiente CFG para determinar en la escala cuánto es más preferible Ypos a Yneg

Entonces obtuve dos versiones del conjunto de datos: recién elegido y rechazado, donde los elegidos no contienen PII y los rechazados contienen PII; Versión CFG con diferentes mensajes del sistema y el correspondiente intercambio de muestras elegidas y rechazadas.

Capacitación

La capacitación se llevó a cabo utilizando el ORPO enfoque, que combina la pérdida de ajuste supervisado con la pérdida de probabilidades de aprendizaje por refuerzo (RL). Se eligió ORPO para reducir los requisitos informáticos de entrenamiento en comparación con el ajuste fino supervisado seguido de métodos basados ​​en RL como DPO. Otras especificaciones de formación:

  • 1xA40 con memoria GPU de 48GiB para entrenar los modelos;
  • Entrenamiento LoRA con adaptadores aplicados a todas las capas lineales con rango 16;
  • 3 épocas, tamaño de lote 2, optimizador AdamW, precisión mixta bfloat16, tasa de aprendizaje inicial = 1e-4 con programador de tasa de aprendizaje coseno hasta el 10% de la tasa de aprendizaje inicial.

El modelo a entrenar es el proporcionado por el modelo de los organizadores entrenado con el conjunto de datos enriquecido con PII de llama3.1–8b-instruct.

Evaluación

La tarea de hacer que un LLM genere respuestas libres de PII es una especie de tarea de desaprendizaje. Por lo general, para desaprender se utiliza algún conjunto de datos de retención; esto ayuda a mantener el rendimiento del modelo fuera del conjunto de datos de desaprendizaje. La idea que tuve es desaprender sin ningún conjunto de datos de retención (para evitar sesgos en el conjunto de datos de retención y simplificar el diseño). Se esperaba que dos componentes de la solución afectaran la capacidad de mantener el rendimiento:

  1. Datos sintéticos del modelo original llama3.1–8B-instruct: el modelo que sintonicé se deriva de este, por lo que los datos muestreados de ese modelo deberían tener un efecto de regularización;
  2. El componente de entrenamiento del régimen de aprendizaje por refuerzo debe limitar la desviación del modelo seleccionado a sintonizar.

Para fines de evaluación del modelo, se utilizaron dos conjuntos de datos:

  • Submuestra de 150 muestras del conjunto de datos de prueba para probar si estamos evitando la generación de PII en las respuestas. La puntuación de este conjunto de datos se calculó utilizando el mismo SpaCy NER que en el proceso de generación de datos;
  • TIGER-Lab/MMLU-Pro”Parte de validación para probar la utilidad del modelo y el rendimiento general. Para evaluar el rendimiento del modelo en el conjunto de datos MMLU-Pro, se utilizó el juez GPT-4o-mini para evaluar la exactitud de las respuestas.

Los resultados de los modelos de entrenamiento con los dos conjuntos de datos descritos se presentan en la siguiente imagen:

Imagen del autor: Resultados de la evaluación de dos conjuntos de datos

Para el método tipo CFG se utilizó el coeficiente CFG de 3 durante la inferencia.

La inferencia CFG muestra mejoras significativas en la cantidad de objetos PII revelados sin ninguna degradación en MMLU en todos los coeficientes de guía probados.

CFG se puede aplicar proporcionando un mensaje negativo para mejorar el rendimiento del modelo durante la inferencia. CFG se puede implementar de manera eficiente, ya que tanto las indicaciones positivas como las negativas se pueden procesar en paralelo en modo por lotes, minimizando la sobrecarga computacional. Sin embargo, en escenarios con recursos computacionales muy limitados, donde el modelo solo se puede utilizar con un tamaño de lote de 1, este enfoque aún puede plantear desafíos.

También se probaron coeficientes de orientación superiores a 3. Si bien los resultados de MMLU y PII fueron buenos con estos coeficientes, las respuestas mostraron una degradación en la calidad gramatical.

Aquí describí un método para RL directo y ajuste fino supervisado y sin retención de conjuntos de datos que puede mejorar el desaprendizaje del modelo sin ninguna sobrecarga de inferencia (CFG se puede aplicar en modo de inferencia por lotes). El enfoque de guía sin clasificador y los adaptadores LoRA revelan al mismo tiempo oportunidades adicionales para mejorar la seguridad de inferencia; por ejemplo, dependiendo de la fuente de tráfico se pueden aplicar diferentes coeficientes de guía; Además, los adaptadores LoRA también se pueden conectar o desconectar del modelo base para controlar el acceso a la PII, lo que puede ser bastante efectivo, por ejemplo, con los pequeños adaptadores LoRA construidos en base a Bit-LoRA acercarse.