Evaluación de datos sintéticos: la pregunta del millón de dólares |  por Andrew Skabar, PhD |  febrero de 2024

El conjunto de datos utilizado en la Parte 1 es simple y se puede modelar fácilmente con solo una combinación de gaussianos. Sin embargo, la mayoría de los conjuntos de datos del mundo real son mucho más complejos. En esta parte de la historia, aplicaremos varios generadores de datos sintéticos a algunos conjuntos de datos populares del mundo real. Nuestro enfoque principal es comparar las distribuciones de similitudes máximas dentro y entre los conjuntos de datos observados y sintéticos para comprender hasta qué punto pueden considerarse muestras aleatorias de la misma distribución principal.

Los seis conjuntos de datos se originan en el repositorio de la UCI² y son conjuntos de datos populares que se han utilizado ampliamente en la literatura sobre aprendizaje automático durante décadas. Todos son conjuntos de datos de tipo mixto y fueron elegidos porque varían en su equilibrio de características categóricas y numéricas.

Los seis generadores son representativos de los principales enfoques utilizados en la generación de datos sintéticos: enfoques basados ​​en cópulas, basados ​​en GAN, basados ​​en VAE y que utilizan imputación secuencial. CopulaGAN³, GaussianCopula, CTGAN³ y TVAE³ están disponibles en Bóveda de datos sintéticos bibliotecas⁴, synthpop⁵ está disponible como un paquete R de código abierto, y ‘UNCRi’ se refiere a la herramienta de generación de datos sintéticos desarrollada bajo la propiedad Representación e inferencia numérica/categórica unificada (UNCRi)⁶. Todos los generadores se utilizaron con sus configuraciones predeterminadas.

La siguiente tabla muestra las similitudes máximas promedio dentro y entre conjuntos para cada generador aplicado a cada conjunto de datos. Las entradas resaltadas en rojo son aquellas en las que la privacidad se ha visto comprometida (es decir, la similitud máxima promedio entre conjuntos excede la similitud máxima promedio intraconjunto en los datos observados). Las entradas resaltadas en verde son aquellas con la similitud máxima entre conjuntos promedio más alta (sin incluir las que están en rojo). La última columna muestra el resultado de realizar una Entrene en sintético, pruebe en real (TSTR), donde se entrena a un clasificador o regresor en los ejemplos sintéticos y se prueba en los ejemplos reales (observados). El conjunto de datos de Boston Housing es una tarea de regresión y se informa el error absoluto medio (MAE); todas las demás tareas son tareas de clasificación y el valor informado es el área bajo la curva ROC (AUC).

Promedio de similitudes máximas y resultado TSTR para seis generadores en seis conjuntos de datos. Los valores de TSTR son MAE para Boston Housing y AUC para todos los demás conjuntos de datos. [Image by Author]

Las siguientes figuras muestran, para cada conjunto de datos, las distribuciones de similitudes máximas dentro y entre conjuntos correspondientes al generador que alcanzó la similitud máxima entre conjuntos promedio más alta (excluyendo aquellos resaltados en rojo arriba).

Distribución de similitudes máximas para synthpop en Vivienda en Boston conjunto de datos. [Image by Author]
Distribución de similitudes máximas para synthpop. Ingresos del Censo conjunto de datos. [Image by Author]
Distribución de similitudes máximas para la UNCRi en Enfermedad del corazón de Cleveland conjunto de datos. [Image by Author]
Distribución de similitudes máximas para la UNCRi en Aprobación de crédito conjunto de datos. [Image by Author]
Distribución de similitudes máximas para la UNCRi en Iris conjunto de datos. [Image by Author]
Distribución de similitudes promedio para TVAE en Cáncer de mama en Wisconsin conjunto de datos. [Image by Author]

En la tabla, podemos ver que para aquellos generadores que no violaron la privacidad, la similitud máxima promedio entre conjuntos está muy cerca de la similitud máxima promedio intraconjunto en los datos observados. Los histogramas nos muestran las distribuciones de estas similitudes máximas, y podemos ver que en la mayoría de los casos las distribuciones son claramente similares, sorprendentemente para conjuntos de datos como el conjunto de datos de Ingresos del Censo. La tabla también muestra que el generador que logró la similitud máxima entre conjuntos promedio más alta para cada conjunto de datos (excluyendo los resaltados en rojo) también demostró el mejor rendimiento en la prueba TSTR (nuevamente excluyendo los en rojo). Por lo tanto, si bien nunca podemos afirmar haber descubierto la “verdadera” distribución subyacente, estos resultados demuestran que el generador más eficaz para cada conjunto de datos ha capturado las características cruciales de la distribución subyacente.

Privacidad

Sólo dos de los siete generadores mostraron problemas con la privacidad: synthpop y TVAE. Cada uno de estos violó la privacidad en tres de los seis conjuntos de datos. En dos casos, específicamente TVAE sobre enfermedades cardíacas de Cleveland y TVAE sobre aprobación de crédito, la infracción fue particularmente grave. Los histogramas de TVAE sobre aprobación de crédito se muestran a continuación y demuestran que los ejemplos sintéticos son demasiado similares entre sí, y también con sus vecinos más cercanos en los datos observados. El modelo es una representación particularmente pobre de la distribución principal subyacente. La razón de esto puede ser que el conjunto de datos de Aprobación de crédito contiene varias características numéricas que están muy sesgadas.

Distribución de similitudes máximas promedio para TVAE en el conjunto de datos de aprobación de crédito. [Image by Author]

Otras observaciones y comentarios

Los dos generadores basados ​​en GAN, CopulaGAN y CTGAN, estuvieron constantemente entre los generadores de peor rendimiento. Esto fue algo sorprendente dada la inmensa popularidad de las GAN.

El rendimiento de GaussianCopula fue mediocre en todos los conjuntos de datos excepto en Wisconsin Breast Cancer, para el cual alcanzó la similitud máxima entre conjuntos promedio igual a la más alta. Su desempeño mediocre en el conjunto de datos Iris fue particularmente sorprendente, dado que se trata de un conjunto de datos muy simple que se puede modelar fácilmente usando una mezcla de gaussianos y que esperábamos que se adaptara bien a los métodos basados ​​en Copula.

Los generadores que funcionan de manera más consistente en todos los conjuntos de datos son synthpop y UNCRi, que operan mediante imputación secuencial. Esto significa que sólo necesitan estimar y muestrear a partir de una distribución condicional univariada (p. ej., PAG(X₇|X₁, X₂, …)), y esto suele ser mucho más fácil que modelar y muestrear a partir de una distribución multivariada (p. ej., PAG(X₁, X₂, X₃,…)), que es (implícitamente) lo que hacen las GAN y VAE. Mientras que el synthpop estima las distribuciones utilizando árboles de decisión (que son la fuente del sobreajuste al que es propenso el synthpop), el generador UNCRi estima las distribuciones utilizando un enfoque basado en el vecino más cercano, con hiperparámetros optimizados mediante un procedimiento de validación cruzada que evita el sobreajuste.

La generación de datos sintéticos es un campo nuevo y en evolución, y si bien todavía no existen técnicas de evaluación estándar, existe consenso en que las pruebas deben cubrir la fidelidad, la utilidad y la privacidad. Pero si bien cada uno de ellos es importante, no están en pie de igualdad. Por ejemplo, un conjunto de datos sintéticos puede lograr un buen rendimiento en cuanto a fidelidad y utilidad, pero fallar en cuanto a privacidad. Esto no le da un ‘dos ​​de tres’: si los ejemplos sintéticos están demasiado cerca de los ejemplos observados (por lo tanto no pasan la prueba de privacidad), el modelo ha sido sobreajustado, haciendo que las pruebas de fidelidad y utilidad carezcan de sentido. Ha habido una tendencia entre algunos proveedores de software de generación de datos sintéticos a proponer medidas de desempeño de puntuación única que combinan resultados de una multitud de pruebas. Esto se basa esencialmente en la misma lógica de “dos de tres”.

Si un conjunto de datos sintéticos puede considerarse una muestra aleatoria de la misma distribución principal que los datos observados, entonces no podemos hacerlo mejor: hemos logrado la máxima fidelidad, utilidad y privacidad. La prueba de máxima similitud proporciona una medida de hasta qué punto dos conjuntos de datos pueden considerarse muestras aleatorias de la misma distribución principal. Se basa en la noción simple e intuitiva de que si un conjunto de datos observado y sintético son muestras aleatorias de la misma distribución principal, las instancias deben distribuirse de modo que una instancia sintética sea tan similar en promedio a su instancia observada más cercana como lo es una instancia observada. similar en promedio a su instancia observada más cercana.

Proponemos la siguiente medida de puntuación única de la calidad del conjunto de datos sintéticos:

Cuanto más se acerque esta relación a 1 (sin exceder 1), mejor será la calidad de los datos sintéticos. Por supuesto, debería ir acompañado de una comprobación de la cordura de los histogramas.