摘要

【目的】解决文献资源管理系统中中文论文学者同名问题。【方法】在文献数据的基础上构建以"作者名+机构名"为标识的学者实体,利用学者实体的属性构建三个方面的6个相似度特征,分别采用主成分分析、直接赋值权重以及二者结合的方法融合特征,研究各融合方法消歧能力和各特征消歧效果。【结果】主成分分析与以单个特征为单位的赋值权重相结合的融合方法,以及以单个方面为单位的赋值权重的融合方法能有效降低时间开销,在LIS测试集上F1值分别达到70.74%和70.42%,在经济学测试集上F1值分别达到81.90%和80.93%。【局限】研究所使用的特征有限,均来源于论文的元数据描述,没有使用外部信息或挖掘文本内容。【结论】所提特征融合方法可有效解决多特征融合时权重设置问题。