摘要

【目的】在文献层和词汇层之间加入主题层,研究一种新的词汇相似度计算方法。【方法】阐述基于形式概念分析(FCA)的主题定义和表示模型,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。【结果】以信息检索领域为例,以SIGIR会议2006-2016年收录的论文数据为样本进行评测,结果表明本文方法的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。【局限】该方法依赖文献关键特征词抽取的质量。【结论】基于形式概念分析的词汇相似度计算方法有效利用了词汇对应的主题语义关系,能更好地反映词语之间的关联性。