Una evaluación práctica de la privacidad diferencial y el aprendizaje federado en el contexto médico.
(Imagen generada por Bing AI, original, propiedad total)
La necesidad de privacidad de datos parece ser generalmente cómoda hoy en día en la era de grandes modelos lingüísticos entrenados en todo, desde la Internet pública, independientemente de propiedad intelectual real cuales sus respectivos Los líderes de la empresa admiten abiertamente.
Pero existe un universo paralelo mucho más sensible en lo que respecta a los datos de los pacientes, nuestros registros sanitarios, que sin duda son mucho más sensibles y necesitan de proteccion.
Además, las normativas son cada vez más estrictas en todo el mundo y la tendencia es unánimemente hacia normas de protección de datos más estrictas, incluida la IA.
Hay razones éticas obvias que no tenemos que explicar, pero sí razones regulatorias y legales a nivel empresarial que requieren que las compañías farmacéuticas, laboratorios y hospitales utilicen tecnologías de última generación para proteger la privacidad de los datos de los pacientes.
El análisis y el aprendizaje federados son excelentes opciones para poder analizar datos y entrenar modelos a partir de los datos de los pacientes sin acceder a ningún dato sin procesar.
En el caso de los análisis federados, esto significa, por ejemplo, que podemos obtener una correlación entre la glucosa en sangre y el IMC de los pacientes sin acceder a ningún dato sin procesar que pueda llevar a la reidentificación de los pacientes.
En el caso del aprendizaje automático, usemos el ejemplo del diagnóstico, donde se entrenan modelos con imágenes de pacientes para detectar cambios malignos en sus tejidos y detectar etapas tempranas del cáncer, por ejemplo. Esta es literalmente una aplicación de aprendizaje automático que salva vidas. Los modelos se entrenan localmente a nivel hospitalario usando imágenes locales y etiquetas asignadas por radiólogos profesionales, luego hay una agregación que combina todos esos modelos locales en un modelo único más generalizado. El proceso se repite durante decenas o cientos de rondas para mejorar el rendimiento del modelo.
Fig. 1. Aprendizaje federado en acción, compartiendo actualizaciones de modelos, no datos.
La recompensa para cada hospital individual es que se beneficiará de un modelo mejor capacitado capaz de detectar enfermedades en futuros pacientes con mayor probabilidad. Es una situación en la que todos ganan, especialmente los pacientes.
Por supuesto, existe una variedad de topologías de redes federadas y estrategias de agregación de modelos, pero en este artículo intentamos centrarnos en el ejemplo típico.
Se cree que Grandes cantidades de datos clínicos no se están utilizando. debido a un (justificado) Renuencia de los propietarios de datos a compartir sus datos. con socios.
El aprendizaje federado es una estrategia clave para generar esa confianza respaldada por la tecnología, no solo en los contratos y la fe en la ética de determinados empleados y socios de las organizaciones que forman consorcios.
En primer lugar, los datos permanecen en la fuente, nunca salen del hospital y no están centralizados en una única ubicación potencialmente vulnerable. El enfoque federado significa que no hay copias externas de los datos que puedan ser difíciles de eliminar una vez finalizada la investigación.
La tecnología bloquea el acceso a datos sin procesar debido a múltiples técnicas que siguen el principio de defensa en profundidad. Cada uno de ellos minimiza decenas o miles de veces el riesgo de exposición de datos y reidentificación de pacientes. Todo para que sea económicamente inviable descubrir ni reconstruir datos a nivel bruto.
Primero se minimizan los datos para exponer solo las propiedades necesarias a los agentes de aprendizaje automático que se ejecutan localmente, se eliminan los datos PII y también utilizamos técnicas de anonimización.
Luego, los nodos locales protegen los datos locales contra la llamada amenaza de los científicos de datos demasiado curiosos al permitir que solo el código y las operaciones aceptados por los propietarios de datos locales se ejecuten en sus datos. Por ejemplo, los propietarios de datos locales permiten o no el código de capacitación modelo implementado localmente en el hospital como un paquete. Los científicos de datos remotos no pueden simplemente enviar ningún código a nodos remotos, ya que eso les permitiría, por ejemplo, devolver datos de nivel sin procesar. Esto requiere una forma de pensar nueva y descentralizada para adoptar diferentes mentalidades y tecnologías para la gestión de permisos, un tema interesante para otro momento.
Suponiendo que todas esas capas de protección estén implementadas, todavía existe preocupación relacionada con la seguridad de los pesos de los modelos en sí.
Existe una creciente preocupación en la comunidad de IA sobre los modelos de aprendizaje automático como supercompresión de los datos, no tan cuadrados como se pensaba anteriormente, y que revelan más información sobre los datos subyacentes de lo que se pensaba anteriormente.
Y eso significa que con suficientes habilidades, tiempo, esfuerzo y hardware potente, un adversario motivado puede intentar reconstruir los datos originales, o al menos demostrar con alta probabilidad que un paciente determinado estaba en el grupo que se utilizó para entrenar el modelo (Inferencia de membresía). Ataque (MIA)). Otro tipos de ataques posible, como la extracción, la reconstrucción y la evasión.
Para empeorar aún más las cosas, el progreso de la IA generativa que todos admiramos y del que nos beneficiamos ofrece técnicas nuevas y más efectivas para la reconstrucción de imágenes (por ejemplo, exploración pulmonar de los pacientes). Las mismas ideas que utilizamos todos nosotros para generar imágenes a pedido pueden ser utilizadas por los adversarios para reconstruir imágenes originales a partir de máquinas de exploración por resonancia magnética y tomografía computarizada. Otras modalidades de datos como datos tabuladostexto, sonido y vídeo ahora se pueden reconstruir utilizando IA genérica.
Los algoritmos de privacidad diferencial (DP) prometen que intercambiamos parte de la precisión del modelo por una resistencia mucho mejor contra ataques de inferencia. Esta es otra compensación entre privacidad y utilidad que vale la pena considerar.
Privacidad diferencial significa que en la práctica agregamos un tipo muy especial de ruido y recorte, que a cambio resultará en un muy buena relación entre ganancias de privacidad y pérdida de precisión.
Puede ser tan fácil como el ruido gaussiano menos efectivo, pero hoy en día adoptamos el desarrollo de algoritmos mucho más sofisticados como la técnica de vectores dispersos (SVT), la biblioteca Opacus como implementación práctica del descenso de gradiente estocástico diferencialmente privado (DP-SGD), además del venerable sonido laplaciano. Bibliotecas basadas en ruido (es decir, PyDP).
Fig. 2. Sobre la privacidad diferencial del dispositivo que todos utilizamos todo el tiempo.
Y, por cierto, todos nos beneficiamos de esta técnica sin siquiera darnos cuenta de que existe y está sucediendo ahora mismo. Nuestros datos de telemetría de dispositivos móviles (Apple iOS, android) y sistemas operativos de escritorio (Microsoft Windows) utiliza privacidad diferencial y algoritmos de aprendizaje federado para entrenar modelos sin enviar datos sin procesar desde nuestros dispositivos. Y existe desde hace años.
Ahora, hay una creciente adopción de otros casos de uso, incluido nuestro caso favorito de aprendizaje federado en silos, con relativamente pocos participantes con grandes cantidades de datos en consorcios establecidos específicamente de diferentes organizaciones y empresas.
La privacidad diferencial no es específica del aprendizaje federado. Sin embargo, existen diferentes estrategias para aplicar el PD en escenarios de aprendizaje federado, así como diferentes selecciones de algoritmos. Diferentes algoritmos que funcionan mejor para configuraciones de aprendizaje federado, diferentes para la privacidad de datos locales (LDP) y el procesamiento de datos centralizado.
En el contexto del aprendizaje federado, anticipamos una caída en la precisión del modelo después de aplicar la privacidad diferencial, pero todavía (y hasta cierto punto con suerte) esperamos que el modelo funcione mejor que los modelos locales sin agregación federada. Por lo tanto, el modelo federado debería conservar su ventaja a pesar del ruido y el recorte añadidos (DP).
Fig. 3. Qué podemos esperar según artículos conocidos y nuestras experiencias.
La privacidad diferencial se puede aplicar ya en los datos de origen (Privacidad diferencial local (LDP)).
Fig. 4, diferentes lugares donde se puede aplicar DP para mejorar la protección de datos
También hay casos de aprendizaje federado dentro de una red de socios que tienen todos los derechos de acceso a los datos y están menos preocupados por los niveles de protección de datos, por lo que es posible que no haya ningún PD.
Por otro lado, cuando el modelo se va a compartir con el mundo exterior o se va a vender comercialmente, podría ser una buena idea aplicar DP también al modelo global.
En el equipo Federado de Ciencia Abierta de Roche, Llamarada de NVIDIA es nuestra herramienta preferida para el aprendizaje federado como el marco federado de código abierto más maduro del mercado. También colaboramos con el equipo de NVIDIA en desarrollo futuro de NVIDIA Flare y estamos encantados de ayudar a mejorar una solución que ya es excelente para el aprendizaje federado.
Probamos tres algoritmos DP diferentes:
Aplicamos privacidad diferencial para los modelos utilizando diferentes estrategias:
- Cada ronda de aprendizaje federado
- Sólo la primera ronda (de entrenamiento federado)
- Cada enésima ronda (de entrenamiento federado)
para tres casos diferentes (conjuntos de datos y algoritmos):
- Conjunto de datos FLamby Tiny IXI
- Clasificación de densidad mamaria
- Clasificación de Higgs
Entonces, probamos tres dimensiones de algoritmo, estrategia y conjunto de datos (caso).
Los resultados se ajustan a nuestras expectativas de degradación de la precisión del modelo, que fue mayor con presupuestos de privacidad más bajos (como se esperaba).
(Fuente del conjunto de datos: https://owkin.github.io/FLamby/fed_ixi.html)
Fig. 5. Rendimiento de los modelos sin DP.
Fig. 6. Rendimiento del modelo con DP en la primera ronda.
Fig. 7. SVT aplicado cada segunda ronda (con umbral decreciente)
Observamos una mejora significativa en la precisión con la aplicación del SVT en la primera ronda en comparación con el filtro SVT aplicado en cada ronda.
(Fuente del conjunto de datos Clasificación de la densidad mamaria mediante MONAI | Kaggle)
Fig. 8. Rendimiento de modelos sin DP
Fig. 9. DP aplicado a la primera ronda
Observamos una pérdida de precisión mediocre después de aplicar un filtro de ruido gaussiano.
Este conjunto de datos fue el más problemático y sensible al DP (gran pérdida de precisión, imprevisibilidad).
(Fuente del conjunto de datos HIGGS – Repositorio de aprendizaje automático de la UCI)
Fig. 10. Rendimiento del modelo con valor percentil 95.
Fig. 11. Valor percentil 50.
Observamos una pérdida de precisión menor y aceptable relacionada con el DP.
Una lección importante aprendida es que los resultados de privacidad diferenciales son muy sensibles a los parámetros de un algoritmo de DP determinado y es difícil ajustarlo para evitar el colapso total de la precisión del modelo.
Además, experimentamos algún tipo de ansiedad, basada en la impresión de no saber realmente cuánta protección de privacidad hemos obtenido y a qué precio. Sólo vimos el lado del “costo” (degradación de la precisión).
Tuvimos que confiar en gran medida en la literatura conocida, que dice y demuestra que incluso pequeñas cantidades de ruido DP ayudan a proteger los datos.
Como ingenieros, nos gustaría ver algún tipo de medida automática que demuestre cuánta privacidad ganamos y cuánta precisión perdimos, y tal vez incluso algún tipo de ajuste AutoDP. Parece estar muy, muy lejos del estado actual de la tecnología y el conocimiento.
Luego aplicamos medidores de privacidad para ver si hay una diferencia visible entre los modelos sin DP y los modelos con DP y observamos cambios en la curva, pero es realmente difícil cuantificar cuánto ganamos.
Algunos algoritmos no funcionaron en absoluto, otros requirieron muchos intentos para ajustarlos adecuadamente para ofrecer resultados viables. No hubo una guía clara sobre cómo ajustar diferentes parámetros para conjuntos de datos y modelos de ML en particular.
Así que nuestra opinión actual es que DP para FL es difícil, pero totalmente factible. Requiere muchas iteraciones y ciclos de prueba y error para lograr resultados aceptables y al mismo tiempo creer en mejoras de privacidad de órdenes de magnitud basadas en la confianza en los algoritmos.
El aprendizaje federado es una excelente opción para mejorar los resultados de los pacientes y la eficacia del tratamiento debido a los modelos de aprendizaje automático mejorados y al mismo tiempo preservar los datos de los pacientes.
Pero la protección de datos nunca viene exenta de un precio y la privacidad diferencial para el aprendizaje federado es un ejemplo perfecto de esa compensación.
Es fantástico ver mejoras en los algoritmos de privacidad diferencial para escenarios de aprendizaje federado para minimizar el impacto en la precisión y al mismo tiempo maximizar la resiliencia de los modelos contra ataques de inferencia.
Como ocurre con todas las compensaciones, las decisiones deben tomarse equilibrando la utilidad de los modelos para aplicaciones prácticas con los riesgos de fuga y reconstrucción de datos.
Y es ahí donde crece nuestra expectativa sobre los medidores de privacidad para saber con mayor precisión qué estamos vendiendo y qué estamos “comprando”, cuál es la relación de cambio.
El panorama es dinámico, con mejores herramientas disponibles tanto para quienes desean proteger mejor sus datos como para quienes están motivados a violar esas reglas y exponer datos confidenciales.
También invitamos a otras mentes federadas a aprovechar y contribuir al esfuerzo colectivo para promover la privacidad de los datos de los pacientes para el aprendizaje federado.