摘要

文献相似度计算是文献检索、文献分析等应用的基础性工作,计算结果将直接影响相关应用的最终效果。文献共被引信息是其区别于普通文本的重要特征,它能有效显示文本之间的关联特征,可以充分利用该特征信息来提高文献相似度计算的有效性与可靠性。本文将文献语义特征与共被引特征引入文献相似度计算过程,在向量空间模型的基础上,提出了一种旨在优化文献相似度计算的混合模型。通过对高校图书馆、网络舆情、信息质量等七个情报学细分领域文献进行计算验证,结果显示本文提出的模型能充分利用文献特有的共被引特征,弥补向量空间模型特征量不足的问题,改善文献相似度计算的整体性能。