摘要

为了解决现有句子相似度算法未考虑句子语义信息的问题,提出了一种基于词法、句法和语义的句子相似度计算方法.将句子相似度分为词法层、句法层、语义层3个层次.在词法层,通过构建句子的词汇相似度矩阵和数字序列相似度矩阵来计算词法相似度;在句法层,使用概念词汇转化成的RDF三元组相似度来计算句法相似度;在语义层,基于本体树状结构中最短路径表示的语义距离来计算语义相似度.然后,提出句子语义相似度计算模型,采集图书领域句子对作为测试集,构建图书领域本体作为知识源.实验结果表明,所提方法具有更高的准确率和召回率,其F-度量值达0.649 9,与余弦相似度算法、基于编辑距离的算法和基于TF-IDF的算法相比分别提高约12%、17%和16%.