摘要

在合作作者网络中,链路预测可以预测当前网络中缺失的链接,以及新的或已解散的链接,根据网络中观测到的信息来推断两位作者在不久的将来是否会产生合作,对于挖掘和分析网络的演化、重塑网络模型具有重要意义。链路预测是计算机科学和物理学的重要研究方向,对此已有较深入的研究,其主要研究思路是基于马尔可夫链、机器学习和无监督的学习。然而,这些工作大多只使用单一的特征,即基于网络拓扑特征或者属性特征进行预测,很少将这些跨学科的特征组合考虑,结合多学科特征进行链路预测的研究非常少。文中设计开发了TNTlink模型,该模型结合网络拓扑特征、基本特征和附加特征,并结合物理学和计算机科学的领域知识,利用深度神经网络将这些特征集成到一个深度学习框架中,其在解决链路预测问题时取得了不错的效果。文中使用了5个数据集(ca-AstroPh,ca-CondMat,ca-GrQc,ca-HepPh和ca-HepTh),包含69 032个节点和450617条边,从捕获的信息中利用二进制相似度和模糊余弦相似度计算和识别特征。如果节点在这些特征中表现出更多的相似性(如相似的节点、相同的关键字或彼此之间密切的关系),则两个节点间更有可能生成链接。除了考虑节点的特征外,还考虑了节点重要性对链路形成的影响,进而提出了一种新的链路预测指标MI,以区分强影响和弱影响,对节点的重要影响进行建模。将所提模型与主流分类器在5个数据集上进行比较,结果表明MI和TNTlink有效地提高了链路预测的AUC值。