¿Con qué eficacia los diferentes enfoques para vincular registros utilizan la información de los registros para hacer predicciones?
Un problema generalizado de calidad de los datos es tener varios registros diferentes que se refieren a la misma entidad pero ningún identificador único que vincule a estas entidades.
En ausencia de un identificador único, como un número de Seguro Social, podemos utilizar una combinación de variables individuales no únicas, como nombre, sexo y fecha de nacimiento, para identificar a las personas.
Para obtener la mayor precisión en la vinculación de registros, necesitamos un modelo que extraiga la mayor cantidad de información posible de estos datos de entrada.
Este artículo describe los tres tipos de información que son más importantes para hacer una predicción precisa y cómo los tres son aprovechados por el modelo Fellegi-Sunter tal como se utiliza en splink.
También describe cómo algunos enfoques alternativos de vinculación de registros desechan parte de esta información, dejando la precisión sobre la mesa.
Los tres tipos de información.
En términos generales, existen tres categorías de información que son relevantes al intentar predecir si un par de registros coinciden:
- Similitud del par de registros.
- Frecuencia de valores en el conjunto de datos general y, en términos más generales, medir qué tan comunes son los diferentes escenarios.
- Calidad de los datos del conjunto de datos general.
Veamos cada uno por separado.
1. Similitud de la comparación de registros por pares: coincidencia difusa
La forma más obvia de predecir si dos registros representan la misma entidad es medir si las columnas contienen información igual o similar.
La similitud de cada columna se puede medir cuantitativamente utilizando funciones de coincidencia difusa como levenshtein o Jaro-Winker para texto o diferencias numéricas, como diferencias absolutas o porcentuales.
Por ejemplo, Hammond vs Hamond tiene una similitud Jaro-Winkler de 0,97 (1,0 es una puntuación perfecta). Probablemente sea un error tipográfico.
A estas medidas se les podrían asignar pesos y sumarlas para calcular una puntuación de similitud total.
El enfoque a veces se conoce como coincidencia difusa y es una parte importante de un modelo de vinculación preciso.
Sin embargo, utilizar este enfoque por sí solo tiene un gran inconveniente: los pesos son arbitrarios:
- El usuario debe adivinar la importancia de los diferentes campos. Por ejemplo, ¿qué peso se debe asignar a una coincidencia de edad? ¿Cómo se compara esto con una coincidencia por el nombre? ¿Cómo deberíamos decidir el tamaño de las ponderaciones punitivas cuando la información no coincide?
- El usuario debe adivinar la relación entre la fuerza de la predicción y cada métrica de coincidencia difusa, en lugar de estimarla. Por ejemplo, ¿cuánto debería cambiar nuestra predicción si el nombre es una coincidencia aproximada de Jaro-Winkler 0.9 en lugar de una coincidencia exacta? ¿Debería cambiar en la misma cantidad si la puntuación de Jaro-Winkler se reduce a 0,8?
2. Frecuencia de valores en el conjunto de datos general, o más ampliamente, medir qué tan comunes son los diferentes escenarios
Podemos mejorar la coincidencia difusa teniendo en cuenta la frecuencia de los valores en el conjunto de datos general (a veces conocida como “frecuencias de términos”).
Por ejemplo, John vs Johny Joss vs Joss Ambos son coincidencias exactas, por lo que tienen el mismo puntaje de similitud, pero el último es una evidencia más fuerte de una coincidencia que el primero, porque Joss es un nombre inusual
El término relativo frecuencias de John v Joss proporcionar una estimación basada en datos de la importancia relativa de estos diferentes nombres, que puede usarse para informar las ponderaciones.
Este concepto se puede ampliar para abarcar registros similares que no coinciden exactamente. Las ponderaciones pueden derivarse de una estimación de qué tan común es observar coincidencias difusas en todo el conjunto de datos. Por ejemplo, si es muy común ver coincidencias vagas en el nombre con una puntuación de Jaro-Winkler de 0,7, incluso entre registros que no coinciden, entonces, si observamos dicha coincidencia, no ofrece mucha evidencia a favor de una coincidencia. . En el enlace probabilístico, esta información se captura en parámetros conocidos como u probabilidades, que se describe con más detalle aquí.
3. Calidad de los datos del conjunto de datos general: medir la importancia de la información que no coincide
Hemos visto que los enfoques basados en la coincidencia difusa y la frecuencia de términos pueden permitirnos calificar la similitud entre registros e incluso, hasta cierto punto, ponderar la importancia de las coincidencias en diferentes columnas.
Sin embargo, ninguna de estas técnicas ayuda a cuantificar la importancia relativa de las no coincidencias con respecto a la probabilidad de coincidencia prevista.
Los métodos probabilísticos estiman explícitamente la importancia relativa de estos escenarios estimando la calidad de los datos. En el enlace probabilístico, esta información se captura en el m probabilidades, que se definen con mayor precisión aquí.
Por ejemplo, si la calidad de los datos en la variable género es extremadamente alta, entonces una falta de coincidencia en el género sería una fuerte evidencia en contra de que los dos registros sean una verdadera coincidencia.
Por el contrario, si los registros se han observado durante varios años, una no coincidencia en la edad no sería una prueba sólida de que los dos registros coincidan.
Vinculación probabilística
Gran parte del poder de los modelos probabilísticos proviene de combinar las tres fuentes de información de una manera que no es posible en otros modelos.
No sólo se incorpora toda esta información en la predicción, sino que pesos de coincidencia parcial en el modelo Fellegi-Sunter permiten estimar la importancia relativa de los diferentes tipos de información a partir de los propios datos y, por lo tanto, ponderarlos correctamente para optimizar la precisión.
Por el contrario, las técnicas de coincidencia difusa a menudo utilizan ponderaciones arbitrarias y no pueden incorporar completamente información de las tres fuentes. Los enfoques de frecuencia de términos carecen de la capacidad de utilizar información sobre la calidad de los datos para ponderar negativamente la información que no coincide, o de un mecanismo para ponderar adecuadamente las coincidencias difusas.
El autor es el desarrollador de splinkun paquete Python gratuito y de código abierto para vinculación probabilística a escala.