一种基于分类效用的文本聚类方法及其系统

蔡毅; 徐静云; 闵华清

摘要

本发明公开了一种基于分类效用的文本聚类方法,包括：(1)对输入数据集进行预处理；(2)将文本转化为特征向量；(3)计算两两向量之间的夹角余弦值,比较两者的相似度；(4)选择相似度最高的两个类进行合并,计算新类与其他类的相似度；(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中；(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0；(7)找到分类效用的最大值,输出该值所对应的聚类结果；(8)对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。本发明具有使得机器对数据的处理过程更加符合人类的认知、帮助用户挖掘潜在知识规律的优点。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-08-05 10:42

一种基于分类效用的文本聚类方法及其系统

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友