Entonces, ¿los datos sintéticos son amigos o enemigos? No es ninguno de los dos y son ambos. A decir verdad, aquí tenemos un ejemplo clásico de arma de doble filo. Los datos sintéticos crean nuevos problemas y al mismo tiempo resuelven algunos de los existentes. Y esto no es válido sólo para la privacidad, sino también para los objetivos de rendimiento, donde por ejemplo escalabilidad y aumento de datos puede estar opuesto a amplificación de sesgo o generalización preocupaciones. Esta no es una razón para renunciar o regurgitar los mismos viejos artículos y análisis del tipo pro versus contra, que generalizan demasiado o se centran en un solo punto minúsculo del panorama general. Lo que también hace que cualquiera que lea un artículo en particular no pueda ver el bosque detrás del árbol.
La utilidad y idoneidad del uso de datos sintéticos en el proceso de entrenamiento de modelos de ML siempre dependerá de las circunstancias particulares del caso. Dependerá del tipo de datos que necesitemos para entrenar el modelo (personal, protegido por derechos de autor, altamente sensible), la cantidad de datos necesarios, la disponibilidad de los datos y el propósito previsto del modelo (como inexactitud o amplificación de sesgos). tendrán pesos diferentes en los modelos que evalúan la solvencia o en los de optimización de la cadena de suministro). Entonces, tal vez podamos comenzar respondiendo este tipo de preguntas para cualquier contexto dado y luego proceder a considerar las diversas compensaciones existentes en un entorno más apropiado.
Conclusiones clave:
· Los datos sintéticos nunca son seudónimos.
· Los datos sintéticos siempre deben ser anónimos.
· Los datos sintéticos no giran únicamente en torno a la privacidad.
· Aunque siempre ayudan a preservar la privacidad, los datos sintéticos causan otros problemas de protección de datos.
· Privacidad y protección de datos no son lo mismo.
· Algunos problemas de protección de datos también son problemas de rendimiento. Esto es bueno porque significa que todos (al menos a veces) estamos tratando de arreglar lo mismo.
· Todas las compensaciones asociadas con los datos sintéticos son muy específicas del contexto y deben discutirse dentro de su contexto relevante.
[1] Exploración de datos sintéticos: ventajas y casos de uso, Intuit Mailchimp, https://mailchimp.com/resources/what-is-synthetic-data/
[2] John Anthony R, Cuando se trata de IA: los datos sintéticos tienen un pequeño secreto sucio, https://www.linkedin.com/pulse/when-comes-aisynthetic-data-has-dirty-little-secret-radosta/
[3] Michael Yurushkin, ¿Cómo pueden los datos sintéticos resolver el problema del sesgo de la IA?, blog de brouton lab, https://broutonlab.com/blog/ai-bias-solved-with-synthetic-data-generación/
[4] Giuffrè, M., Shung, DL Aprovechar el poder de los datos sintéticos en la atención sanitaria: innovación, aplicación y privacidad. npj Dígito. Medicina. 6, 186 (2023). https://doi.org/10.1038/s41746-023-00927-3
[5] RGPD
[6] AEDP, 10 MALENTENDIDOS RELACIONADOS CON LA ANONIMIZACIÓN, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf
[7] Considerando 26 del RGPD
[8] AEDP, 10 MALENTENDIDOS RELACIONADOS CON LA ANONIMIZACIÓN, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf
[9] Robert Riemann, Synthetic Data, Supervisor Europeo de Protección de Datos.
[10] Alex Hern, Los datos ‘anónimos’ nunca pueden ser totalmente anónimos, dice un estudio, The Guardian, 23 de julio de 2019, https://www.theguardian.com/technology/2019/jul/23/anonymised-data-never-be-anonymous-enough-study-finds ; Emily M Weitzenboeck, Pierre Lison, Malgorzata Cyndecka, Malcolm Langford, El RGPD y los datos no estructurados: ¿es posible la anonimización?, Ley internacional de privacidad de datos, volumen 12, número 3, agosto de 2022, páginas 184–206, https://doi.org/10.1093/idpl/ipac008
[11] H. Deng, Exploración de datos sintéticos para inteligencia artificial y sistemas autónomos: introducción,
Ginebra, Suiza: UNIDIR, 2023, https://unidir.org/wp-content/uploads/2023/11/UNIDIR_Exploring_Synthetic_Data_for_Artificial_Intelligence_and_Autonomous_Systems_A_Primer.pdf .