Un tutorial de codificación de NetworKit 11.2.1 de estilo de producción para análisis de gráficos, comunidades, núcleos y dispersión a gran escala

En este tutorial, implementamos una canalización de análisis de gráficos a gran escala y de nivel de producción en NetworKit, centrándonos en la velocidad, la eficiencia de la memoria y las API con versiones seguras en NetworKit 11.2.1. Generamos una red libre a gran escala, extraemos el componente conectado más grande y luego calculamos señales estructurales de la columna vertebral mediante descomposición de k-core y clasificación de centralidad. También detectamos comunidades con PLM y cuantificamos la calidad mediante modularidad; estimar la estructura de distancias utilizando diámetros efectivos y estimados; y, finalmente, dispersar el gráfico para reducir el costo y al mismo tiempo preservar las propiedades clave. Exportamos el gráfico disperso como una lista de bordes para poder reutilizarlo en flujos de trabajo posteriores, evaluaciones comparativas o preprocesamiento de ML de gráficos.

!pip -q instalar networkit pandas numpy psutil importar gc, tiempo, os importar numpy como np importar pandas como pd importar psutil importar networkit como nk print(“NetworKit:”, nk.__version__) nk.setNumberOfThreads(min(2, nk.getMaxNumberOfThreads())) nk.setSeed(7, False) def ram_gb(): p = psutil.Process(os.getpid()) return p.memory_info().rss / (1024**3) def tic(): return time.perf_counter() def toc(t0, msg): print(f”{msg}: {time.perf_counter()-t0:.3f}s | RAM~{ram_gb():.2f} GB”) def report(G, nombre): print(f”\n[{name}] nodos={G.numberOfNodes():,} bordes={G.numberOfEdges():,} dirigido={G.isDirected()} ponderado={G.isWeighted()}”) def force_cleanup(): gc.collect() PRESET = “LARGE” if PRESET == “LARGE”: N = 120_000 M_ATTACH = 6 AB_EPS = 0.12 ED_RATIO = 0.9 elif PRESET == “XL”: N = 250_000 M_ATTACH = 6 AB_EPS = 0.15 ED_RATIO = 0.9 else: N = 80_000 M_ATTACH = 6 AB_EPS = 0.10 ED_RATIO = 0.9 print(f”\nPreset={PRESET} | N={N:,} | m={M_ATTACH} | distancia aproximada épsilon={AB_EPS}”)

Configuramos el entorno Colab con NetworKit y utilidades de monitoreo, y bloqueamos una semilla aleatoria estable. Configuramos el uso de subprocesos para que coincida con el tiempo de ejecución y definimos ayudantes de sincronización y seguimiento de RAM para cada etapa principal. Elegimos un ajuste preestablecido de escala que controla el tamaño del gráfico y los botones de aproximación para que el proceso siga siendo grande pero manejable.

t0 = tic() G = nk.generators.BarabasiAlbertGenerator(M_ATTACH, N).generate() toc(t0, “Gráfico BA generado”) report(G, “G”) t0 = tic() cc = nk.components.ConnectedComponents(G) cc.run() toc(t0, “ConnectedComponents”) print(“componentes:”, cc.numberOfComponents()) si cc.numberOfComponents() > 1: t0 = tic() G = nk.graphtools.extractLargestConnectedComponent(G, compactGraph=True) toc(t0, “LCC extraído (compactGraph=True)”) report(G, “LCC”) force_cleanup()

Generamos un gráfico grande de Barabási-Albert e inmediatamente registramos su tamaño y huella de tiempo de ejecución. Calculamos componentes conectados para comprender la fragmentación y diagnosticar rápidamente la topología. Extraemos el componente conectado de mayor tamaño y lo compactamos para mejorar el rendimiento y la fiabilidad del resto de la tubería.

t0 = tic() core = nk.centrality.CoreDecomposition(G) core.run() toc(t0, “CoreDecomposition”) core_vals = np.array(core.scores(), dtype=np.int32) print(“degeneración (núcleo máximo):”, int(core_vals.max())) print(“estadísticas principales:”, pd.Series(core_vals).describe(percentiles=[0.5, 0.9, 0.99]).to_dict()) k_thr = int(np.percentile(core_vals, 97)) t0 = tic() nodos_backbone = [u for u in range(G.numberOfNodes()) if core_vals[u] >= k_thr]G_backbone = nk.graphtools.subgraphFromNodes(G, nodes_backbone) toc(t0, f”Subgrafo de Backbone (k>={k_thr})”) report(G_backbone, “Backbone”) force_cleanup() t0 = tic() pr = nk.centrality.PageRank(G, húmedo=0.85, tol=1e-8) pr.run() toc(t0, “PageRank”) pr_scores = np.array(pr.scores(), dtype=np.float64) top_pr = np.argsort(-pr_scores)[:15]
print(“Nodos de PageRank superior:”, top_pr.tolist()) print(“Puntuaciones de PageRank superior:”, pr_scores[top_pr].tolist()) t0 = tic() abw = nk.centrality. AproxBetweenness(G, epsilon=AB_EPS) abw.run() toc(t0, “AproxBetweenness”) abw_scores = np.array(abw.scores(), dtype=np.float64) top_abw = np.argsort(-abw_scores)[:15]
print(“Nodos de intervalo aproximado superior:”, top_abw.tolist()) print(“Puntuaciones de intervalo aproximado superior:”, abw_scores[top_abw].tolist()) force_cleanup()

Calculamos la descomposición central para medir la degeneración e identificar la columna vertebral de alta densidad de la red. Extraemos un subgrafo principal utilizando un umbral de percentil central alto para centrarnos en nodos estructuralmente importantes. Ejecutamos PageRank y aproximamos la intermediación para clasificar los nodos por influencia y comportamiento similar a un puente a escala.

t0 = tic() plm = nk.community.PLM(G, refine=True, gamma=1.0, par=”balanced”) plm.run() toc(t0, “Detección de comunidad PLM”) part = plm.getPartition() num_comms = part.numberOfSubsets() print(“comunidades:”, num_comms) t0 = tic() Q = nk.community.Modularity().getQuality(part, G) toc(t0, “Modularity”) print(“modularity Q:”, Q) tamaños = np.array(list(part.subsetSizeMap().values()), dtype=np.int64) print(“estadísticas de tamaño de la comunidad:”, pd.Series(sizes).describe(percentiles=[0.5, 0.9, 0.99]).to_dict()) t0 = tic() eff = nk.distance.EffectiveDiameter(G, ED_RATIO) eff.run() toc(t0, f”EffectiveDiameter (ratio={ED_RATIO})”) print(“diámetro efectivo:”, eff.getEffectiveDiameter()) t0 = tic() diam = nk.distance.EstimatedDiameter(G) diam.run() toc(t0, “Diámetro Estimado”) print(“diámetro estimado:”, diam.getDiameter().distance) force_cleanup()

Detectamos comunidades que utilizan PLM y registramos la cantidad de comunidades encontradas en el gráfico grande. Calculamos la modularidad y resumimos las estadísticas del tamaño de la comunidad para validar la estructura en lugar de simplemente confiar en la partición. Estimamos el comportamiento de la distancia global utilizando el diámetro efectivo y el diámetro estimado de una manera segura para API para NetworkorKit 11.2.1.

t0 = tic() sp = nk.sparsification.LocalSimilaritySparsifier(G, 0.7) G_sparse = sp.getSparsifiedGraph() toc(t0, “LocalSimilarity sparsification (alpha=0.7)”) report(G_sparse, “Sparse”) t0 = tic() pr2 = nk.centrality.PageRank(G_sparse, húmedo=0.85, tol=1e-8) pr2.run() toc(t0, “PageRank en disperso”) pr2_scores = np.array(pr2.scores(), dtype=np.float64) print(“Nodos de relaciones públicas principales (dispersos):”, np.argsort(-pr2_scores)[:15].tolist()) t0 = tic() plm2 = nk.community.PLM(G_sparse, refine=True, gamma=1.0, par=”balanced”) plm2.run() toc(t0, “PLM en disperso”) part2 = plm2.getPartition() Q2 = nk.community.Modularity().getQuality(part2, G_sparse) print(“comunidades (disperso):”, part2.numberOfSubsets(), “| modularidad (disperso):”, Q2) t0 = tic() eff2 = nk.distance.EffectiveDiameter(G_sparse, ED_RATIO) eff2.run() toc(t0, “EffectiveDiameter on sparse”) print(“diámetro efectivo (orig):”, eff.getEffectiveDiameter(), “| (disperso):”, eff2.getEffectiveDiameter()) force_cleanup() out_path = “/content/networkit_large_sparse.edgelist” t0 = tic() nk.graphio.EdgeListWriter(“\t”, 0).write(G_sparse, out_path) toc(t0, “Escribió la lista de bordes”) print(“Guardado:”, out_path) print(“\nCanalización avanzada de gráficos grandes completada.”)

Dispersamos el gráfico utilizando similitud local para reducir la cantidad de aristas y al mismo tiempo conservamos una estructura útil para el análisis posterior. Volvemos a ejecutar PageRank, PLM y el diámetro efectivo en el gráfico disperso para comprobar si las señales clave siguen siendo consistentes. Exportamos el gráfico disperso como una lista de bordes para poder reutilizarlo en sesiones, herramientas o experimentos adicionales.

En conclusión, desarrollamos un flujo de trabajo NetworKit escalable de extremo a extremo que refleja el análisis real de redes grandes: comenzamos desde la generación, estabilizamos la topología con extracción LCC, caracterizamos la estructura a través de núcleos y centralidades, descubrimos comunidades y las validamos con modularidad, y capturamos el comportamiento de la distancia global a través de estimaciones de diámetro. Luego aplicamos dispersión para reducir el gráfico mientras lo manteníamos analíticamente significativo y lo guardamos para canalizaciones repetibles. El tutorial proporciona una plantilla práctica que podemos reutilizar para conjuntos de datos reales reemplazando el generador con un lector de lista de bordes, manteniendo las mismas etapas de análisis, seguimiento del rendimiento y pasos de exportación.

Consulte los códigos completos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Un tutorial de codificación de NetworKit 11.2.1 de estilo de producción para análisis de gráficos, comunidades, núcleos y dispersión a gran escala

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una guía de codificación sobre capacitación posterior a LLM con TRL desde el ajuste fino supervisado hasta el razonamiento DPO y GRPO

Cómo ser contratado en la era de la IA

Beacon Biosignals está mapeando el cerebro durante el sueño | Noticias del MIT

You missed

Los astronautas de Artemis 2 reciben el tratamiento de estrella después de un histórico viaje a la luna

¿Sabías que estás financiando la gira fallida de Kid Rock?

El Tribunal confirma la decisión del Ayuntamiento de Orihuela sobre la jubilación del jefe de policía – El Liderazgo

Peddi de Ram Charan tiene nueva fecha de estreno el 4 de junio