一种基于熵的文本相似性计算方法

作者:李圣文; 凌微; 龚君芳; 周长征
来源:计算机应用研究, 2016, 33(03): 665-668.
DOI:10.3969/j.issn.1001-3695.2016.03.006

摘要

文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。

全文