融合知识图谱的文本聚类方法研究

作者:龚芝; 马凌*; 刘敏; 何先波
来源:南京理工大学学报, 2022, 46(02): 170-176.
DOI:10.14177/j.cnki.32-1397n.2022.46.02.007

摘要

为了提高文本聚类的性能,采用近邻传播(Affinity propagation, AP)算法进行文本聚类,并采用知识图谱进行样本预分析,以提高AP的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;建立AP文本聚类模型,并通过差分进化(Differential evolution, DE)算法优化偏向参数;利用DE算法求解的最优个体的偏向参数进行AP聚类运算,不断更新AP算法的决策和潜力阵,从而获得稳定的聚类结果。试验结果表明,经过知识图谱分析之后,通过合理设置DE算法的差分缩放因子和交叉速率,DE-AP算法能够获得更优的聚类准确度,且聚类准确度的均方根误差(Root mean squared error, RMSE)值更低;和常用文本聚类算法相比,该文算法获得了更高的聚类准确度。

全文