El objetivo de la predicción de propiedades de vínculos dinámicos es predecir la propiedad (a menudo la existencia) de un vínculo entre un par de nodos en una marca de tiempo futura.
Muestreo de borde negativo. En aplicaciones reales, los verdaderos bordes no se conocen de antemano. Por lo tanto, se consulta una gran cantidad de pares de nodos y solo los pares con las puntuaciones más altas se tratan como aristas. Motivados por esto, enmarcamos la tarea de predicción de enlaces como un problema de clasificación y tomamos muestras de múltiples aristas negativas por cada arista positiva. En particular, para un borde positivo dado (s,d,t)arreglamos el nodo fuente s y marca de tiempo t y muestra q diferentes nodos de destino d. Para cada conjunto de datos, q se selecciona en función del equilibrio entre la integridad de la evaluación y el tiempo de inferencia del conjunto de pruebas. Fuera de q muestras negativas, la mitad se muestrean uniformemente al azar, mientras que la otra mitad son bordes negativos históricos (bordes que se observaron en el conjunto de entrenamiento pero que no están presentes en el momento). t).
Métrica de rendimiento. Utilizamos el rango recíproco medio (MRR) filtrado como métrica para esta tarea, ya que está diseñado para problemas de clasificación. El MRR calcula el rango recíproco del nodo de destino verdadero entre los destinos negativos o falsos y se usa comúnmente en sistemas de recomendación y literatura sobre gráficos de conocimiento.
Resultados en pequeños conjuntos de datos. en el pequeño tgbl-wiki y tgbl-reviewconjuntos de datos, observamos que los modelos con mejor rendimiento son bastante diferentes. Además, los modelos con mejor rendimiento en tgbl-wiki como CAWN y NAT tienen una reducción significativa en el rendimiento en tgbl-review. Una posible explicación es que el tgbl-reviewEl conjunto de datos tiene un índice de sorpresa mucho más alto en comparación con el tgbl-wikiconjunto de datos. El alto índice de sorpresa muestra que nunca se observa una alta proporción de bordes del conjunto de prueba en el conjunto de entrenamiento, por lo tanto tgbl-reviewrequiere un razonamiento más inductivo. En tgbl-review, GraphMixer y TGAT son los modelos con mejor rendimiento. Debido a su menor tamaño, podemos muestrear todos los posibles negativos para tgbl-wikiy cien negativos por tgbl-reviewpor flanco positivo.
La mayoría de los métodos se quedan sin memoria de GPU para estos conjuntos de datos, por lo que comparamos TGN, DyRep y Edgebank en estos conjuntos de datos debido a su menor requisito de memoria de GPU. Tenga en cuenta que algunos conjuntos de datos como tgbl-commento tgbl-flightabarca varios años, lo que podría dar como resultado un cambio de distribución a lo largo de su largo período de tiempo.
Perspectivas. Como se ve arriba en tgbl-wiki, la cantidad de muestras negativas utilizadas para la evaluación puede afectar significativamente el rendimiento del modelo: vemos una caída significativa del rendimiento en la mayoría de los métodos, cuando la cantidad de muestras negativas aumenta de 20 a todos los destinos posibles. Esto verifica que, efectivamente, se requieren más muestras negativas para una evaluación sólida. Curiosamente, métodos como CAWN y Edgebank tienen una caída relativamente menor en el rendimiento y dejamos como trabajo futuro investigar por qué ciertos métodos se ven menos afectados.
A continuación, observamos una diferencia de hasta dos órdenes de magnitud en el tiempo de entrenamiento y validación de los métodos TG, siendo la línea de base heurística Edgebank siempre la más rápida (ya que se implementa simplemente como una tabla hash). Esto muestra que mejorar la eficiencia y la escalabilidad del modelo es una dirección futura importante, de modo que los modelos nuevos y existentes puedan probarse en grandes conjuntos de datos proporcionados en TGB.