摘要

本发明公开了一种基于分类效用的文本聚类方法,包括:(1)对输入数据集进行预处理;(2)将文本转化为特征向量;(3)计算两两向量之间的夹角余弦值,比较两者的相似度;(4)选择相似度最高的两个类进行合并,计算新类与其他类的相似度;(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0;(7)找到分类效用的最大值,输出该值所对应的聚类结果;(8)对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。本发明具有使得机器对数据的处理过程更加符合人类的认知、帮助用户挖掘潜在知识规律的优点。