Una nueva forma de ver la privacidad de los datos |  Noticias del MIT

Imagine que un equipo de científicos ha desarrollado un modelo de aprendizaje automático que puede predecir si un paciente tiene cáncer a partir de imágenes de exploración pulmonar. Quieren compartir este modelo con hospitales de todo el mundo para que los médicos puedan empezar a utilizarlo en el diagnóstico.

Pero hay un problema. Para enseñarle a su modelo cómo predecir el cáncer, le mostraron millones de imágenes reales de escaneos pulmonares, un proceso llamado entrenamiento. Esos datos confidenciales, que ahora están codificados en el funcionamiento interno del modelo, podrían ser extraídos por un agente malicioso. Los científicos pueden evitar esto agregando ruido, o aleatoriedad más genérica, al modelo que haga más difícil para un adversario adivinar los datos originales. Sin embargo, la perturbación reduce la precisión de un modelo, por lo que cuanto menos ruido se pueda agregar, mejor.

Los investigadores del MIT han desarrollado una técnica que permite al usuario agregar potencialmente la menor cantidad de ruido posible, al mismo tiempo que garantiza que los datos confidenciales estén protegidos.

Los investigadores crearon una nueva métrica de privacidad, a la que llamaron Privacidad probablemente aproximadamente correcta (PAC), y construyeron un marco basado en esta métrica que puede determinar automáticamente la cantidad mínima de ruido que debe agregarse. Además, este marco no necesita conocimiento del funcionamiento interno de un modelo ni de su proceso de entrenamiento, lo que facilita su uso para diferentes tipos de modelos y aplicaciones.

En varios casos, los investigadores muestran que la cantidad de ruido necesaria para proteger los datos confidenciales de los adversarios es mucho menor con PAC Privacy que con otros enfoques. Esto podría ayudar a los ingenieros a crear modelos de aprendizaje automático que probablemente oculten los datos de entrenamiento y, al mismo tiempo, mantengan la precisión en entornos del mundo real.

“PAC Privacy explota la incertidumbre o la entropía de los datos confidenciales de manera significativa y esto nos permite agregar, en muchos casos, un orden de magnitud menos de ruido. Este marco nos permite comprender las características del procesamiento arbitrario de datos y privatizarlo automáticamente sin modificaciones artificiales. Si bien estamos en los primeros días y estamos haciendo ejemplos simples, estamos entusiasmados con la promesa de esta técnica”, dice Srini Devadas, profesora de ingeniería eléctrica Edwin Sibley Webster y coautora de un nuevo artículo sobre privacidad de PAC.

Devadas escribió el artículo con el autor principal Hanshen Xiao, un estudiante de posgrado en ingeniería eléctrica e informática. La investigación se presentará en la Conferencia Internacional de Criptografía (Crypto 2023).

Definiendo privacidad

Una pregunta fundamental en materia de privacidad de datos es: ¿cuántos datos confidenciales podría recuperar un adversario de un modelo de aprendizaje automático al que se le añade ruido?

La privacidad diferencial, una definición de privacidad popular, dice que la privacidad se logra si un adversario que observa el modelo publicado no puede inferir si los datos de un individuo arbitrario se utilizan para el procesamiento de entrenamiento. Pero impedir que un adversario distinga el uso de datos a menudo requiere grandes cantidades de ruido para oscurecerlo. Este ruido reduce la precisión del modelo.

PAC Privacy analiza el problema de manera un poco diferente. Caracteriza lo difícil que sería para un adversario reconstruir cualquier parte de datos sensibles generados o muestreados aleatoriamente después de que se haya agregado ruido, en lugar de centrarse únicamente en el problema de la distinguibilidad.

Por ejemplo, si los datos confidenciales son imágenes de rostros humanos, la privacidad diferencial se centraría en si el adversario puede saber si el rostro de alguien estaba en el conjunto de datos. PAC Privacy, por otro lado, podría analizar si un adversario podría extraer una silueta (una aproximación) que alguien podría reconocer como el rostro de un individuo en particular.

Una vez que establecieron la definición de privacidad de PAC, los investigadores crearon un algoritmo que le dice automáticamente al usuario cuánto ruido agregar a un modelo para evitar que un adversario reconstruya con confianza una aproximación cercana de los datos confidenciales. Este algoritmo garantiza la privacidad incluso si el adversario tiene una potencia informática infinita, afirma Xiao.

Para encontrar la cantidad óptima de ruido, el algoritmo de privacidad de PAC se basa en la incertidumbre o entropía de los datos originales desde el punto de vista del adversario.

Esta técnica automática toma muestras aleatoriamente de una distribución de datos o de un gran conjunto de datos y ejecuta el algoritmo de entrenamiento de aprendizaje automático del usuario en esos datos submuestreados para producir un modelo aprendido de salida. Hace esto muchas veces en diferentes submuestreos y compara la varianza en todos los resultados. Esta variación determina cuánto ruido se debe agregar; una variación menor significa que se necesita menos ruido.

Ventajas del algoritmo

A diferencia de otros enfoques de privacidad, el algoritmo de privacidad de PAC no necesita conocimiento del funcionamiento interno de un modelo ni del proceso de capacitación.

Al implementar PAC Privacy, un usuario puede especificar el nivel de confianza deseado desde el principio. Por ejemplo, tal vez el usuario quiera una garantía de que un adversario no tendrá más del 1 por ciento de confianza en haber reconstruido con éxito los datos confidenciales con un margen del 5 por ciento de su valor real. El algoritmo de privacidad de PAC le dice automáticamente al usuario la cantidad óptima de ruido que debe agregarse al modelo de salida antes de compartirlo públicamente para lograr esos objetivos.

“El ruido es óptimo, en el sentido de que si sumas menos de lo que te decimos, todas las apuestas podrían fracasar. Pero el efecto de agregar ruido a los parámetros de la red neuronal es complicado y no hacemos ninguna promesa sobre la caída de utilidad que el modelo puede experimentar con el ruido agregado”, dice Xiao.

Esto apunta a una limitación de PAC Privacy: la técnica no le dice al usuario cuánta precisión perderá el modelo una vez que se agregue el ruido. PAC Privacy también implica entrenar repetidamente un modelo de aprendizaje automático en muchas submuestras de datos, por lo que puede resultar costoso desde el punto de vista computacional.

Para mejorar la privacidad de PAC, un enfoque es modificar el proceso de capacitación de aprendizaje automático de un usuario para que sea más estable, lo que significa que el modelo de salida que produce no cambia mucho cuando los datos de entrada se submuestrean de un grupo de datos. Esta estabilidad crearía variaciones más pequeñas entre las salidas de submuestra, por lo que no solo sería necesario ejecutar menos veces el algoritmo de privacidad de PAC para identificar la cantidad óptima de ruido, sino que también sería necesario agregar menos ruido.

Un beneficio adicional de los modelos más estables es que a menudo tienen menos errores de generalización, lo que significa que pueden hacer predicciones más precisas sobre datos nunca antes vistos, una situación en la que todos ganan entre el aprendizaje automático y la privacidad, añade Devadas.

“En los próximos años, nos encantaría profundizar un poco más en esta relación entre estabilidad y privacidad, y la relación entre privacidad y error de generalización. Estamos llamando a una puerta, pero aún no está claro adónde conduce”, afirma.

“Ocultar el uso de los datos de un individuo en un modelo es fundamental para proteger su privacidad. Sin embargo, hacerlo puede tener un coste en la utilidad de los datos y, por tanto, del modelo”, afirma Jeremy Goodsitt, ingeniero senior de aprendizaje automático de Capital One, que no participó en esta investigación. “PAC proporciona una solución empírica de caja negra que puede reducir el ruido añadido en comparación con las prácticas actuales manteniendo al mismo tiempo garantías de privacidad equivalentes. Además, su enfoque empírico amplía su alcance a más aplicaciones que consumen datos”.

Esta investigación está financiada, en parte, por DSTA Singapur, Cisco Systems, Capital One y una beca MathWorks.