摘要
在大数据时代,通过论文、专利等数据挖掘出科研学者的兴趣能对学者画像构建、学者交流合作和科研成果分析产生重要作用,然而目前针对科研学者兴趣挖掘的研究工作相对较少,还有很多亟需解决的问题。提出了一种基于负载中心性的科研学者兴趣挖掘算法(load centrality based interest mining algorithm for research scholars,LCBIM),该算法能够针对科研学者论文和专利数据,准确提取科研学者兴趣领域的关键词,利用图聚合的思想来聚合邻域的特征空间以产生高质量的图节点,同时根据语义分析针对相似词或冗余信息进行顶点聚合来简化图结构,然后利用负载中心性原理计算图中节点的权重,分析得出科研学习的兴趣领域。该算法能够在拥有丰富语义信息的论文和专利中挖掘出学者的兴趣点。实验结果表明,提出的基于负载中心性的科研学者兴趣挖掘算法能够在论文和专利语料中快速有效地提取出科研学者的兴趣。
- 单位