El conjunto de datos utilizado en la Parte 1 es simple y se puede modelar fácilmente con solo una combinación de gaussianos. Sin embargo, la mayoría de los conjuntos de datos del mundo real son mucho más complejos. En esta parte de la historia, aplicaremos varios generadores de datos sintéticos a algunos conjuntos de datos populares del mundo real. Nuestro enfoque principal es comparar las distribuciones de similitudes máximas dentro y entre los conjuntos de datos observados y sintéticos para comprender hasta qué punto pueden considerarse muestras aleatorias de la misma distribución principal.
Los seis conjuntos de datos se originan en el repositorio de la UCI² y son conjuntos de datos populares que se han utilizado ampliamente en la literatura sobre aprendizaje automático durante décadas. Todos son conjuntos de datos de tipo mixto y fueron elegidos porque varían en su equilibrio de características categóricas y numéricas.
Los seis generadores son representativos de los principales enfoques utilizados en la generación de datos sintéticos: enfoques basados en cópulas, basados en GAN, basados en VAE y que utilizan imputación secuencial. CopulaGAN³, GaussianCopula, CTGAN³ y TVAE³ están disponibles en Bóveda de datos sintéticos bibliotecas⁴, synthpop⁵ está disponible como un paquete R de código abierto, y ‘UNCRi’ se refiere a la herramienta de generación de datos sintéticos desarrollada bajo la propiedad Representación e inferencia numérica/categórica unificada (UNCRi)⁶. Todos los generadores se utilizaron con sus configuraciones predeterminadas.
La siguiente tabla muestra las similitudes máximas promedio dentro y entre conjuntos para cada generador aplicado a cada conjunto de datos. Las entradas resaltadas en rojo son aquellas en las que la privacidad se ha visto comprometida (es decir, la similitud máxima promedio entre conjuntos excede la similitud máxima promedio intraconjunto en los datos observados). Las entradas resaltadas en verde son aquellas con la similitud máxima entre conjuntos promedio más alta (sin incluir las que están en rojo). La última columna muestra el resultado de realizar una Entrene en sintético, pruebe en real (TSTR), donde se entrena a un clasificador o regresor en los ejemplos sintéticos y se prueba en los ejemplos reales (observados). El conjunto de datos de Boston Housing es una tarea de regresión y se informa el error absoluto medio (MAE); todas las demás tareas son tareas de clasificación y el valor informado es el área bajo la curva ROC (AUC).
Las siguientes figuras muestran, para cada conjunto de datos, las distribuciones de similitudes máximas dentro y entre conjuntos correspondientes al generador que alcanzó la similitud máxima entre conjuntos promedio más alta (excluyendo aquellos resaltados en rojo arriba).
En la tabla, podemos ver que para aquellos generadores que no violaron la privacidad, la similitud máxima promedio entre conjuntos está muy cerca de la similitud máxima promedio intraconjunto en los datos observados. Los histogramas nos muestran las distribuciones de estas similitudes máximas, y podemos ver que en la mayoría de los casos las distribuciones son claramente similares, sorprendentemente para conjuntos de datos como el conjunto de datos de Ingresos del Censo. La tabla también muestra que el generador que logró la similitud máxima entre conjuntos promedio más alta para cada conjunto de datos (excluyendo los resaltados en rojo) también demostró el mejor rendimiento en la prueba TSTR (nuevamente excluyendo los en rojo). Por lo tanto, si bien nunca podemos afirmar haber descubierto la “verdadera” distribución subyacente, estos resultados demuestran que el generador más eficaz para cada conjunto de datos ha capturado las características cruciales de la distribución subyacente.
Privacidad
Sólo dos de los siete generadores mostraron problemas con la privacidad: synthpop y TVAE. Cada uno de estos violó la privacidad en tres de los seis conjuntos de datos. En dos casos, específicamente TVAE sobre enfermedades cardíacas de Cleveland y TVAE sobre aprobación de crédito, la infracción fue particularmente grave. Los histogramas de TVAE sobre aprobación de crédito se muestran a continuación y demuestran que los ejemplos sintéticos son demasiado similares entre sí, y también con sus vecinos más cercanos en los datos observados. El modelo es una representación particularmente pobre de la distribución principal subyacente. La razón de esto puede ser que el conjunto de datos de Aprobación de crédito contiene varias características numéricas que están muy sesgadas.
Otras observaciones y comentarios
Los dos generadores basados en GAN, CopulaGAN y CTGAN, estuvieron constantemente entre los generadores de peor rendimiento. Esto fue algo sorprendente dada la inmensa popularidad de las GAN.
El rendimiento de GaussianCopula fue mediocre en todos los conjuntos de datos excepto en Wisconsin Breast Cancer, para el cual alcanzó la similitud máxima entre conjuntos promedio igual a la más alta. Su desempeño mediocre en el conjunto de datos Iris fue particularmente sorprendente, dado que se trata de un conjunto de datos muy simple que se puede modelar fácilmente usando una mezcla de gaussianos y que esperábamos que se adaptara bien a los métodos basados en Copula.
Los generadores que funcionan de manera más consistente en todos los conjuntos de datos son synthpop y UNCRi, que operan mediante imputación secuencial. Esto significa que sólo necesitan estimar y muestrear a partir de una distribución condicional univariada (p. ej., PAG(X₇|X₁, X₂, …)), y esto suele ser mucho más fácil que modelar y muestrear a partir de una distribución multivariada (p. ej., PAG(X₁, X₂, X₃,…)), que es (implícitamente) lo que hacen las GAN y VAE. Mientras que el synthpop estima las distribuciones utilizando árboles de decisión (que son la fuente del sobreajuste al que es propenso el synthpop), el generador UNCRi estima las distribuciones utilizando un enfoque basado en el vecino más cercano, con hiperparámetros optimizados mediante un procedimiento de validación cruzada que evita el sobreajuste.
La generación de datos sintéticos es un campo nuevo y en evolución, y si bien todavía no existen técnicas de evaluación estándar, existe consenso en que las pruebas deben cubrir la fidelidad, la utilidad y la privacidad. Pero si bien cada uno de ellos es importante, no están en pie de igualdad. Por ejemplo, un conjunto de datos sintéticos puede lograr un buen rendimiento en cuanto a fidelidad y utilidad, pero fallar en cuanto a privacidad. Esto no le da un ‘dos de tres’: si los ejemplos sintéticos están demasiado cerca de los ejemplos observados (por lo tanto no pasan la prueba de privacidad), el modelo ha sido sobreajustado, haciendo que las pruebas de fidelidad y utilidad carezcan de sentido. Ha habido una tendencia entre algunos proveedores de software de generación de datos sintéticos a proponer medidas de desempeño de puntuación única que combinan resultados de una multitud de pruebas. Esto se basa esencialmente en la misma lógica de “dos de tres”.
Si un conjunto de datos sintéticos puede considerarse una muestra aleatoria de la misma distribución principal que los datos observados, entonces no podemos hacerlo mejor: hemos logrado la máxima fidelidad, utilidad y privacidad. La prueba de máxima similitud proporciona una medida de hasta qué punto dos conjuntos de datos pueden considerarse muestras aleatorias de la misma distribución principal. Se basa en la noción simple e intuitiva de que si un conjunto de datos observado y sintético son muestras aleatorias de la misma distribución principal, las instancias deben distribuirse de modo que una instancia sintética sea tan similar en promedio a su instancia observada más cercana como lo es una instancia observada. similar en promedio a su instancia observada más cercana.
Proponemos la siguiente medida de puntuación única de la calidad del conjunto de datos sintéticos:
Cuanto más se acerque esta relación a 1 (sin exceder 1), mejor será la calidad de los datos sintéticos. Por supuesto, debería ir acompañado de una comprobación de la cordura de los histogramas.