Probablemente hayas visto o interactuado con un gráfico, te hayas dado cuenta o no. Nuestro mundo está compuesto de relaciones. A quién conocemos, cómo interactuamos, cómo realizamos transacciones: los gráficos estructuran la información de una manera que hace explícitas estas relaciones inherentes.
Analíticamente hablando, los gráficos de conocimiento proporcionan el medio más intuitivo para sintetizar y representar conexiones dentro y entre conjuntos de datos para su análisis. Un gráfico de conocimiento es un artefacto técnico “que presenta los datos visualmente como entidades y las relaciones entre ellas.” Le proporciona al analista un modelo digital de un problema. Y se parece a esto…
Este artículo analiza qué hace que un gráfico sea excelente y responde algunas preguntas comunes relacionadas con su implementación técnica.
Los gráficos pueden representar casi cualquier cosa en la que haya interacción o intercambio. Las entidades (o nodos) pueden ser personas, empresas, documentos, ubicaciones geográficas, cuentas bancarias, billeteras de criptomonedas, activos físicos, etc. Los bordes (o enlaces) pueden representar conversaciones, llamadas telefónicas, correos electrónicos, citas académicas, transferencia de paquetes de red, impresiones y conversiones de anuncios, transacciones financieras, relaciones personales, etc.
Entonces, ¿qué hace que un gráfico sea excelente?
- El propósito del gráfico es claro.
El dominio de las soluciones basadas en gráficos incluye un entorno analítico (que a menudo funciona con una base de datos de gráficos), técnicas de análisis de gráficos y técnicas de visualización de gráficos. Los gráficos, como la mayoría de las herramientas analíticas, requieren casos de uso específicos. Los gráficos se pueden utilizar para visualizar conexiones dentro y entre conjuntos de datos, para descubrir conexiones latentes, para simular la difusión de información o modelar el contagio, para modelar el tráfico de la red o el comportamiento social, para identificar a los actores más influyentes en una red social y muchos otros casos de uso. ¿Quién utiliza el gráfico? ¿Qué intentan lograr estos usuarios de forma analítica o visual? ¿Están explorando los datos de una organización? ¿Están respondiendo preguntas específicas? ¿Están analizando, modelando, simulando, prediciendo? Comprender los casos de uso que la solución basada en gráficos debe abordar es el primer paso para establecer el propósito del gráfico e identificar el dominio del gráfico.
- El gráfico es específico del dominio.
Probablemente el mayor error en la implementación de soluciones basadas en grafos es el intento de crear un grafo maestro. Un grafo para gobernarlos a todos. En otras palabras, todos los datos de la empresa en un grafo. Graph no es una solución de gestión de datos maestros (MDM) ni un reemplazo para un almacén de datos, incluso si la organización tiene una base de datos de grafos escalable. Los grafos más exitosos representan un dominio determinado de investigación analítica. Por ejemplo, un grafo de inteligencia financiera puede contener empresas, estructuras de propiedad efectiva, transacciones financieras, instituciones financieras e individuos de alto patrimonio neto. Un grafo de ubicación de patrón de vida puede contener datos de señales de gran volumen, como direcciones IP y datos de teléfonos móviles, junto con ubicaciones físicas, activos técnicos e individuos. Una vez que el propósito y el dominio de un grafo están claros, los arquitectos pueden pasar a los datos disponibles y/o necesarios para construir el grafo.
- El gráfico tiene un esquema claro.
Un gráfico que se encuentra en una base de datos de gráficos tendrá un esquema que dicta su estructura. En otras palabras, el esquema especificará los tipos de entidades que existen en el gráfico y las relaciones que se permiten entre ellas. Una ventaja de una base de datos de gráficos sobre otros tipos de bases de datos es que el esquema es flexible y se puede actualizar a medida que se agregan nuevos datos, entidades y tipos de relaciones al gráfico con el tiempo. Los ingenieros de datos de gráficos toman muchas decisiones al diseñar una base de datos de gráficos para representar la ontología (la estructura conceptual de un conjunto de datos) en un esquema que tenga sentido para el gráfico que se está creando. Si los datos se comprenden bien en la organización, con frecuencia el proceso de arquitectura de gráficos puede comenzar con la creación del esquema, pero si la naturaleza del gráfico y los conjuntos de datos incluidos son más exploratorios, es posible que se requiera primero el diseño de la ontología.
Considere el esquema de muestra en la imagen a continuación. Hay cinco tipos de entidades: personas (amarillo), ubicaciones físicas y virtuales (azul), documentos (gris), empresas (rosa) y cuentas financieras (verde). Entre las entidades, se permiten varios tipos de relaciones, por ejemplo, “está_relacionado_con”, “menciona” e “invierte_en”. Este es un gráfico dirigido, lo que significa que la direccionalidad de la relación tiene significado, es decir, dos personas están_casadas_entre sí (enlace bidireccional) y una persona vive_en_un lugar (enlace dirigido).
- Existe un mecanismo claro para conectar conjuntos de datos.
Las conexiones entre entidades de distintos conjuntos de datos no siempre son explícitas en los datos. La simple importación de dos conjuntos de datos en un entorno gráfico puede generar muchos nodos sin conexiones entre ellos.
Considere un conjunto de datos médicos que tiene una entrada de Tom Marvolo Riddle y un conjunto de datos de registro de votantes que tiene una entrada de TM Riddle y una entrada de Merope Riddle Gaunt. En el conjunto de datos médicos, Merope Gaunt aparece como la madre de Tom Riddle. En el conjunto de datos de registro de votantes, no se describen miembros de la familia. ¿Cómo se desduplican las entradas de Tom Marvolo Riddle y TM Riddle al fusionar los conjuntos de datos en el gráfico?, es decir, no debería haber dos nodos separados en el gráfico para Tom Riddle y TM Riddle ya que son la misma persona. ¿Cómo se conectan Tom Riddle y Merope Gaunt, y cómo se especifica su conexión como en la imagen a continuación?, por ejemplo, ¿conectados, relacionados, madre/hijo? ¿Se pondera la relación?
Estas preguntas requieren no sólo un equipo de ingeniería de datos para especificar el esquema del gráfico e implementar el diseño del gráfico, sino también algún tipo de proceso de resolución de entidades. sobre lo que ya he escrito anteriormente.
- El gráfico está diseñado para escalar.
Los datos del gráfico se unen previamente en el almacenamiento de datos del gráfico, lo que significa que consultas de un solo salto Las operaciones de análisis de gráficos se ejecutan más rápido que en bases de datos tradicionales, por ejemplo, consultan a Tom Riddle y ven todas sus conexiones inmediatas. Sin embargo, las operaciones analíticas en gráficos son bastante lentas, por ejemplo, ‘muéstrame el camino más corto entre Tom Riddle y Minerva McGonagall’ o ‘¿qué personaje tiene la centralidad de vector propio más alta en Harry Potter y el príncipe mestizo’? Como regla general, la latencia en las operaciones de gráficos aumenta exponencialmente con la densidad del gráfico (una relación de las conexiones existentes en el gráfico con todas las conexiones posibles en el gráfico). La mayoría de las herramientas de visualización de gráficos tienen dificultades para representar varias decenas de miles de nodos en la pantalla.
Si una organización busca soluciones gráficas escalables para múltiples usuarios analistas simultáneos, se requiere una arquitectura de datos gráfica a medida. Esto incluye una base de datos gráfica escalable, varios procesos de ingeniería de datos gráfica y una herramienta de visualización de interfaz.
- El gráfico tiene una solución para manejar la temporalidad.
Una vez que se crea una solución gráfica, uno de los mayores desafíos es cómo mantenerla. Conectar cinco conjuntos de datos en una base de datos gráfica y renderizar el entorno de análisis gráfico resultante produce una instantánea en el tiempo. ¿Cuál es la periodicidad de esos conjuntos de datos y con qué frecuencia se debe actualizar el gráfico, es decir, semanalmente, mensualmente, trimestralmente, en tiempo real? ¿Se sobrescriben o se agregan datos? ¿Se eliminan las entidades eliminadas del gráfico o se conservan? ¿Cómo se proporcionan los conjuntos de datos actualizados, es decir, las tablas delta, el conjunto de datos completo nuevamente? Si hay elementos temporales en los datos, ¿cómo se representan?
- La solución basada en gráficos está diseñada por ingenieros de datos gráficos.
Los gráficos son hermosos. Son intuitivos para el ser humano, atractivos y muy visuales. Conceptualmente, son engañosamente simples. Reúna algunos conjuntos de datos, especifique las relaciones entre los conjuntos de datos, fusione los datos y nacerá un gráfico. Analice el gráfico y genere imágenes bonitas. Pero los desafíos de ingeniería de datos asociados con la arquitectura de una solución escalable basada en gráficos no son triviales.
La selección de herramientas y tecnologías, el diseño de esquemas, la ingeniería de datos de gráficos, los enfoques para la resolución de entidades y la deduplicación de datos, y la buena arquitectura para el uso previsto son solo algunos de los desafíos. Lo importante es tener un verdadero equipo de gráficos al mando del diseño de una solución basada en gráficos empresariales. Una capacidad de visualización de gráficos no hace una solución de gráficos. Y un simple software de autoservicio de apuntar y hacer clic puede funcionar para un solo usuario analista, pero está muy lejos de ser un entorno de análisis de gráficos relevante para la organización. Se requieren ingenieros de datos de gráficos, metodólogos y arquitectos de soluciones con experiencia en gráficos para construir una solución basada en gráficos de alta fidelidad a la luz de todos los desafíos mencionados anteriormente.
Conclusión
He visto cómo los gráficos han cambiado muchas organizaciones analíticas del mundo real. Independientemente del dominio analítico, gran parte del trabajo de un analista es manual. Existen numerosos productos tecnológicos que intentan automatizar los flujos de trabajo de los analistas o crear soluciones de apuntar y hacer clic. A pesar de estos esfuerzos, el problema fundamental sigue siendo: los datos que necesita un analista rara vez son fácilmente accesibles a través de una interfaz, y mucho menos están interconectados y listos para la exploración iterativa. Los datos se proporcionan a los analistas a través de una variedad de plataformas, interfaces de programación de aplicaciones (API) y herramientas de consulta, todas las cuales requieren distintos niveles de perspicacia técnica para acceder a ellos. Luego, depende del analista sintetizar manualmente los datos y extraer conclusiones analíticas significativas.
Las soluciones basadas en gráficos reúnen todos los datos relevantes de un analista en un solo lugar y los representan de manera intuitiva. Esto le brinda al analista la capacidad de hacer clic rápidamente en las entidades y conexiones según corresponda para el análisis. Personalmente, he ayudado a equipos a crear soluciones contra el lavado de dinero, identificar a actores maliciosos y transacciones financieras ilícitas, interceptar migrantes perdidos en el mar, rastrear el movimiento de sustancias ilegales, abordar el tráfico ilegal de vida silvestre y predecir rutas de migración, todo con soluciones basadas en gráficos. Para aprovechar el poder de las soluciones gráficas para las empresas analíticas, primero hay que crear un gran gráfico: una base sólida sobre la cual construir una investigación analítica más sólida y de mayor impacto.