La resolución de entidades es un proceso. Un gráfico de conocimiento es un artefacto técnico. Y la combinación de ambos produce una de las herramientas de fusión de datos más poderosas que tenemos en el dominio de la representación del conocimiento y el razonamiento. Recientemente, los ERKG se han abierto camino en la narrativa de la arquitectura de datos, especialmente para las organizaciones analíticas que quieren que todos los datos de un dominio determinado estén conectados en un solo lugar para su investigación. Este artículo analizará el gráfico de conocimiento resuelto por entidades, el ER, el KG y algunos de los detalles sobre su implementación.
Emergencias. La resolución de entidades (también conocida como resolución de identidad, coincidencia de datos o vinculación de registros) es el proceso computacional mediante el cual las entidades se deduplican y/o vinculan en un conjunto de datos. Esto puede ser tan simple como resolver dos registros en una base de datos, uno listado como Tom Riddle y otro como TM Riddle. O puede ser tan complejo como una persona que utiliza alias (Lord Voldemort), diferentes números de teléfono y múltiples direcciones IP para cometer fraude bancario.
KG. Un gráfico de conocimiento es una forma de representación del conocimiento que presenta datos visualmente como entidades y las relaciones entre ellas. Las entidades pueden ser personas, empresas, conceptos, activos físicos, geolocalizaciones, etc. Las relaciones pueden ser intercambio de información, comunicación, viajes, transacciones bancarias, transacciones computacionales, etc. Las entidades y relaciones se almacenan en una base de datos gráfica, unidas previamente y representadas. visualmente como nodos y aristas. Se parece a esto…
De este modo…
ERG. Un gráfico de conocimiento que contiene múltiples conjuntos de datos dentro de los cuales las entidades están conectadas y deduplicadas. En otras palabras, no hay entidades duplicadas (los nodos de Tom Riddle y TM Riddle se han resuelto en un solo nodo). Además, se han descubierto conexiones latentes entre nodos potencialmente relacionados dentro de un umbral de probabilidad aceptable (por ejemplo, Tom Riddle, Lord Voldemort y Sorvolo Riddle). En este punto probablemente te estarás preguntando: “¿Por qué crearías un gráfico de conocimiento a partir de múltiples fuentes de datos?”. eso no es ¿resuelto por entidad? La respuesta simple es: “no lo harías”. Dicho esto, los métodos sobre cómo resolver entidades y las tecnologías disponibles para la representación de gráficos hacen que la creación de un ERKG sea una tarea desalentadora.
Este es el primer ERKG que fabricamos.
En 2016, incorporamos dos conjuntos de datos a una base de datos gráfica: 1) personas en la lista de sanciones internacionales de la Oficina de Control de Activos Extranjeros (OFAC) (azul) y 2) clientes de una empresa que permanecerá anónima (rosa). Obviamente, la intención de la empresa era descubrir si alguno de sus clientes era persona sancionada internacionalmente sin realizar una búsqueda manual en la base de datos de la OFAC. Si bien el proceso de ER que representa este gráfico probablemente sea excesivo para la tarea, es ilustrativo.
La mayoría de entidades resueltas en el gráfico son entre dos y tres personas dentro el mismo conjunto de datos (azul a azul o rosa a rosa). Es probable que estos representen registros duplicados (ese problema de Tom Riddle vs. TM Riddle del que hablamos anteriormente). En algunos casos, la deduplicación es extrema, como en los grupos rosados cerca de la parte superior de la imagen. Aquí vemos que una sola persona está representada por entre 5 y 10 registros separados en el conjunto de datos del cliente. Entonces, como mínimo, vemos que la empresa necesita un proceso de deduplicación dentro de sus propios datos de clientes.
Donde se vuelve interesante es en las relaciones de azul a rosa que vemos identificadas en la parte superior de la imagen. Esto es lo que buscaba la firma: resoluciones de entidades al otro lado de conjuntos de datos. Es probable que varios de sus clientes sean personas sancionadas internacionalmente.
Este ejemplo es bastante simple, lo que puede llevar a uno a concluir incorrectamente que construir un ERKG es una tarea sencilla. Es todo menos simple. Especialmente si necesita escalar varios terabytes de datos y múltiples usuarios analistas.
Los algoritmos ligeros de procesamiento del lenguaje natural (PLN) (como las técnicas de coincidencia difusa) son bastante sencillos de implementar. Estos pueden manejar fácilmente el problema de Tom Riddle vs. TM Riddle. Pero cuando se busca combinar más de dos conjuntos de datos, posiblemente con múltiples idiomas y caracteres internacionales, el simple proceso de PNL se vuelve bastante picante.
También se requieren soluciones de ER más avanzadas para conjuntos de problemas analíticos más avanzados, como la lucha contra el blanqueo de dinero o el fraude bancario. La coincidencia difusa no es suficiente para identificar a un perpetrador que oculta intencionalmente su identidad utilizando múltiples alias e intentando evadir sanciones u otras regulaciones. Para ello, el proceso de ER debe incluir enfoques basados en el aprendizaje automático y métodos más sofisticados que tengan en cuenta metadatos adicionales más allá de un nombre. No todo es PNL.
También existe un gran debate sobre la ER basada en gráficos versus la ER a nivel de conjunto de datos. Para obtener el análisis basado en gráficos de mayor fidelidad, se requieren ambos. Entidades resolutivas dentro y al otro lado de conjuntos de datos a medida que esos conjuntos de datos se incorporan a una base de datos de gráficos 1) minimiza las operaciones a gran escala en el gráfico que son computacionalmente costosas, y 2) garantiza que el gráfico contenga solo entidades resueltas (sin duplicados) desde el inicio, lo que también proporciona enormes ahorros de costos para la arquitectura gráfica general.
Una vez que existe un gráfico de conocimiento resuelto por entidades, los equipos de ciencia de datos pueden explorar más a fondo ER adicionales a través de técnicas de ER basadas en gráficos. Estas técnicas tienen el beneficio adicional de aprovechar la topología del gráfico (es decir, la estructura inherente del propio gráfico) como una característica sobre la cual predecir conexiones latentes entre los conjuntos de datos combinados.
El ERKG puede ser una herramienta analítica potente y visualmente intuitiva. Proporciona:
- Fusión de múltiples conjuntos de datos en una base de datos de gráficos maestros
- Un gráfico de conocimiento de dominio específico representado visualmente para que los analistas lo exploren.
- La capacidad de especificar un esquema de gráfico vivo que represente cómo se conectan y representan los datos a los analistas.
- La representación visual de la deduplicación de datos y las conexiones explícitas dentro y entre conjuntos de datos.
- Conexiones latentes (enlaces predichos) dentro y entre conjuntos de datos con la capacidad de controlar el umbral de probabilidad de la predicción.
El ERKG se convierte entonces en el lienzo analítico sobre el que pintar una exploración vibrante e interconectada de un dominio determinado representado a través de múltiples conjuntos de datos. Es una solución de fusión de datos y, además, altamente intuitiva para el ser humano.