Desbloqueo de la clasificación de imágenes diferencialmente privadas de alta precisión a través de la escala

Investigación

Publicado
Autores

Soham De, Leonard Berrada, Jamie Hayes, Samuel L. Smith, Borja Balle

Un reciente Papel de mente profunda sobre los riesgos éticos y sociales de los modelos lingüísticos identificados grandes modelos lingüísticos filtrar información sensible sobre sus datos de capacitación como un riesgo potencial que las organizaciones que trabajan en estos modelos tienen la responsabilidad de abordar. Otro artículo reciente muestra que también pueden surgir riesgos de privacidad similares en los modelos de clasificación de imágenes estándar: se puede encontrar una huella digital de cada imagen de entrenamiento individual incrustada en los parámetros del modelo, y partes malintencionadas podrían explotar dichas huellas digitales para reconstruir los datos de entrenamiento del modelo.

Las tecnologías que mejoran la privacidad, como la privacidad diferencial (DP), se pueden implementar durante la capacitación para mitigar estos riesgos, pero a menudo conllevan una reducción significativa en el rendimiento del modelo. En este trabajo, logramos avances sustanciales hacia el desbloqueo del entrenamiento de alta precisión de modelos de clasificación de imágenes bajo privacidad diferencial.

Figura 1: (izquierda) Ilustración de la fuga de datos de entrenamiento en GPT-2 [credit: Carlini et al. “Extracting Training Data from Large Language Models”, 2021]. (derecha) Ejemplos de entrenamiento de CIFAR-10 reconstruidos a partir de una red neuronal convolucional de 100 000 parámetros [credit: Balle et al. “Reconstructing Training Data with Informed Adversaries”, 2022]

La privacidad diferencial fue propuesto como marco matemático para capturar el requisito de proteger registros individuales en el curso del análisis de datos estadísticos (incluido el entrenamiento de modelos de aprendizaje automático). Los algoritmos DP protegen a los individuos de cualquier inferencia sobre las características que los hacen únicos (incluida la reconstrucción completa o parcial) inyectando ruido cuidadosamente calibrado durante el cálculo de la estadística o modelo deseado. El uso de algoritmos DP proporciona garantías de privacidad sólidas y rigurosas tanto en teoría como en la práctica, y se ha convertido en un estándar de oro de facto adoptado por varios público y privado organizaciones.

El algoritmo DP más popular para el aprendizaje profundo es el descenso de gradiente estocástico diferencialmente privado (DP-SGD), una modificación del SGD estándar que se obtiene recortando gradientes de ejemplos individuales y agregando suficiente ruido para enmascarar la contribución de cualquier individuo a cada actualización del modelo:

Figura 2: Ilustración de cómo DP-SGD procesa gradientes de ejemplos individuales y agrega ruido para producir actualizaciones del modelo con gradientes privatizados.

Desafortunadamente, trabajos anteriores han encontrado que, en la práctica, la protección de la privacidad proporcionada por DP-SGD a menudo tiene el costo de modelos significativamente menos precisos, lo que presenta un obstáculo importante para la adopción generalizada de la privacidad diferencial en la comunidad de aprendizaje automático. Según la evidencia empírica de trabajos anteriores, esta degradación de la utilidad en DP-SGD se vuelve más severa en modelos de redes neuronales más grandes, incluidos los que se usan regularmente para lograr el mejor rendimiento en puntos de referencia desafiantes de clasificación de imágenes.

Nuestro trabajo investiga este fenómeno y propone una serie de modificaciones simples tanto al procedimiento de entrenamiento como a la arquitectura del modelo, lo que produce una mejora significativa en la precisión del entrenamiento DP en los puntos de referencia de clasificación de imágenes estándar. La observación más sorprendente que surge de nuestra investigación es que DP-SGD se puede utilizar para entrenar de manera eficiente modelos mucho más profundos de lo que se pensaba anteriormente, siempre que se garantice que los gradientes del modelo se comporten bien. Creemos que el salto sustancial en el rendimiento logrado por nuestra investigación tiene el potencial de desbloquear aplicaciones prácticas de modelos de clasificación de imágenes entrenados con garantías formales de privacidad.

La siguiente figura resume dos de nuestros resultados principales: una mejora de ~10 % en CIFAR-10 en comparación con el trabajo anterior cuando se entrena de forma privada sin datos adicionales, y una precisión de primer nivel del 86,7 % en ImageNet cuando se afina un modelo de forma privada antes de realizar el ajuste. entrenado en un conjunto de datos diferente, casi cerrando la brecha con el mejor desempeño no privado.

Figura 3: (izquierda) Nuestros mejores resultados en el entrenamiento de modelos WideResNet en CIFAR-10 sin datos adicionales. (derecha) Nuestros mejores resultados al ajustar los modelos NFNet en ImageNet. El modelo de mejor rendimiento se entrenó previamente en un conjunto de datos interno separado de ImageNet.

Estos resultados se logran en ε=8, una configuración estándar para calibrar la fuerza de la protección ofrecida por la privacidad diferencial en aplicaciones de aprendizaje automático. Nos referimos al artículo para una discusión de este parámetro, así como resultados experimentales adicionales en otros valores de ε y también en otros conjuntos de datos. Junto con el artículo, también estamos abriendo nuestra implementación para permitir que otros investigadores verifiquen nuestros hallazgos y se basen en ellos. Esperamos que esta contribución ayude a otras personas interesadas en hacer realidad la formación práctica del PD.

Descargue nuestra implementación JAX en GitHub.