摘要
传统社团检测算法大多基于网络拓扑结构,没有充分利用网络节点的标签等信息,所以无法合理地解释得到的社团结构。微博、Facebook、Twitter等社交媒体网络增长迅速,用户标签通常不完整,应用传统机器学习模型补全标签通常需要大量训练样本,这种模式需要人工标注训练数据,时间周期长、泛化能力差。将迁移学习理论应用到这类任务中,可以避免人工标注损耗、缩短训练时间,所以针对新浪微博数据特点,提出一种融合知识迁移学习的微博社团结构检测模型(community structure inference model with knowledge transfer learning,KTL-CSIM)。社团结构检测模型基于度数相关的随机块模型,建立基于拓扑结构与节点信息的似然概率模型。文本向量化模型基于知识迁移模型将源领域知识迁移到目标领域微博数据上,得到目标领域文本向量。这种方法不需要人工标注数据,有效减少了模型训练时间,提高了泛化能力。