¿Para qué sirve la privacidad del paciente? El Juramento Hipocrático, considerado uno de los textos de ética médica más antiguos y más conocidos del mundo, dice: “Todo lo que vea u oiga en la vida de mis pacientes, ya sea en relación con mi práctica profesional o no, y que no deba mencionarse en el exterior, lo mantendré en secreto, por considerarlo privado”.
A medida que la privacidad se vuelve cada vez más escasa en la era de los algoritmos ávidos de datos y los ciberataques, la medicina es uno de los pocos dominios que quedan donde la confidencialidad sigue siendo fundamental para la práctica, lo que permite a los pacientes confiar a sus médicos información confidencial.
Pero un artículo del que son coautores investigadores del MIT investiga cómo los modelos de inteligencia artificial entrenados en registros médicos electrónicos (EHR) no identificados pueden memorizar información específica del paciente. El trabajo, que se presentó recientemente en la Conferencia de 2025 sobre Sistemas de Procesamiento de Información Neural (NeurIPS), recomienda una configuración de prueba rigurosa para garantizar que las indicaciones específicas no puedan revelar información, enfatizando que las fugas deben evaluarse en un contexto de atención médica para determinar si compromete significativamente la privacidad del paciente.
Los modelos básicos entrenados en HCE normalmente deberían generalizar el conocimiento para hacer mejores predicciones, basándose en muchos registros de pacientes. Pero en la “memorización”, el modelo se basa en el registro de un paciente singular para generar su resultado, violando potencialmente la privacidad del paciente. En particular, ya se sabe que los modelos básicos son propensos a la fuga de datos.
“El conocimiento de estos modelos de alta capacidad puede ser un recurso para muchas comunidades, pero los atacantes adversarios pueden impulsar un modelo para extraer información sobre datos de entrenamiento”, dice Sana Tonekaboni, postdoctorado en el Centro Eric y Wendy Schmidt del Instituto Broad del MIT y Harvard y primer autor del artículo. Dado el riesgo de que los modelos básicos también puedan memorizar datos privados, señala, “este trabajo es un paso para garantizar que haya pasos de evaluación prácticos que nuestra comunidad pueda tomar antes de lanzar modelos”.
Para realizar una investigación sobre el riesgo potencial que los modelos básicos de EHR podrían plantear en medicina, Tonekaboni se acercó al profesor asociado del MIT Marzyeh Ghassemi, investigador principal de la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel), miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial. Ghassemi, miembro de la facultad del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y del Instituto de Ingeniería y Ciencias Médicas, dirige el grupo Healthy ML, que se centra en el aprendizaje automático sólido en la salud.
¿Cuánta información necesita un mal actor para exponer datos confidenciales y cuáles son los riesgos asociados con la información filtrada? Para evaluar esto, el equipo de investigación desarrolló una serie de pruebas que esperan sientan las bases para futuras evaluaciones de privacidad. Estas pruebas están diseñadas para medir varios tipos de incertidumbre y evaluar su riesgo práctico para los pacientes midiendo varios niveles de posibilidad de ataque.
“Realmente intentamos enfatizar la practicidad aquí; si un atacante tiene que conocer la fecha y el valor de una docena de pruebas de laboratorio de su registro para poder extraer información, hay muy poco riesgo de daño. Si ya tengo acceso a ese nivel de datos fuente protegidos, ¿por qué tendría que atacar un modelo de base grande para obtener más?” dice Gasemi.
Con la inevitable digitalización de los registros médicos, las violaciones de datos se han vuelto más comunes. En los últimos 24 meses, el Departamento de Salud y Servicios Humanos de EE. UU. ha registrado 747 violaciones de datos de información de salud que afectaron a más de 500 personas, y la mayoría se categorizó como incidentes de piratería informática o de TI.
Los pacientes con condiciones únicas son especialmente vulnerables, dado lo fácil que es identificarlas. “Incluso con datos no identificados, depende del tipo de información que se filtre sobre el individuo”, dice Tonekaboni. “Una vez que los identificas, sabes mucho más”.
En sus pruebas estructuradas, los investigadores descubrieron que cuanta más información tiene el atacante sobre un paciente en particular, más probabilidades hay de que el modelo filtre información. Demostraron cómo distinguir los casos de generalización del modelo de la memorización a nivel del paciente, para evaluar adecuadamente el riesgo de privacidad.
El documento también enfatiza que algunas fugas son más dañinas que otras. Por ejemplo, un modelo que revela la edad o los datos demográficos de un paciente podría caracterizarse como una filtración más benigna que el modelo que revela información más sensible, como un diagnóstico de VIH o abuso de alcohol.
Los investigadores señalan que los pacientes con condiciones únicas son especialmente vulnerables dada la facilidad con la que se detectan, lo que puede requerir mayores niveles de protección. “Incluso con datos no identificados, realmente depende del tipo de información que se filtre sobre el individuo”, dice Tonekaboni. Los investigadores planean ampliar el trabajo para que sea más interdisciplinario, agregando médicos y expertos en privacidad, así como expertos legales.
“Hay una razón por la que nuestros datos de salud son privados”, dice Tonekaboni. “No hay ninguna razón para que otros lo sepan”.
Este trabajo cuenta con el apoyo del Centro Eric y Wendy Schmidt del Instituto Broad del MIT y Harvard, Wallenberg AI, la Fundación Knut y Alice Wallenberg, la Fundación Nacional de Ciencias de EE. UU. (NSF), un premio de la Fundación Gordon y Betty Moore, un premio Google Research Scholar y el Programa AI2050 de Schmidt Sciences. Los recursos utilizados en la preparación de esta investigación fueron proporcionados, en parte, por la provincia de Ontario, el gobierno de Canadá a través de CIFAR y empresas que patrocinan el Vector Institute.