摘要
DBLP数据库是一个以作者为核心的计算机类英文文献数据库,其中存在着大量的同名作者,为数据库的使用带来了较大的不便。针对DBLP数据库中作者译名的同名问题,以网络嵌入为基础进行作者姓名消歧。提出了以下两种新方法:(1)从文章之间的相似性出发,建立有偏游走序列,在Word2vec模型进行训练后,利用聚类方法对同名作者进行区分。(2)根据文章的属性构建二部图,并基于LINE方法得到每篇文章的特征向量,用机器学习模型区分同名作者。具体来讲,构建多层感知机模型并添加Softmax函数,用以判断输入的两篇文章是否出自同一作者。模型在221位DBLP中同名作者的文献数据集上进行验证,实验结果表明,该方法可以有效地区分DBLP中的同名作者并优于对比方法。
- 单位