摘要
文本相似性度量对基于文本的分类,聚类以及排序等有着广泛的影响。现有的大部分文本相似性度量方法不仅文本特征粒度单一化,而且忽略了非结构化文本数据中的结构化信息。该文将文本相似性度量问题转化为加权异质信息网络中的节点相似性度量问题,利用元路径的结构特性和语义特性度量文本的显式语义相似性,使其度量结果更准确并且更具有可解释性。首先,结合世界知识库,扩大文本特征粒度,构建加权文本异质信息网络,将非结构化文本类型数据表示为结构化的异质信息网络的形式。其次,挖掘元路径,并提出基于元路径的ω-PageRank-Nibble子图划分算法,得到包含给定文本节点集的局部图。根据局部图,计算并存储特定元路径的交换矩阵,为后续相似性度量降低时间及空间成本。最后,提出AllPathSim耦合相似性度量方法,度量文本类型节点的相似性。在图剪枝方面,利用基于元路径的ω-PageRank-Nibble算法划分子图,与处理整张图相比,时间成本和空间成本降低效果显著。在相似性度量方面,与同期最优的相同类型节点度量方法相比,AllPathSim耦合相似性度量方法与度量结果的相关系数在20NG和GCAT数据集上分别提高了6.1%和6.9%。
- 单位