变精度粗糙集的加权KNN文本分类算法

作者:刘发升; 董清龙*; 李文静
来源:计算机工程与设计, 2019, 40(05): 1339-1342+1364.
DOI:10.16208/j.issn1000-7024.2019.05.026

摘要

针对训练样本较大时KNN算法(K最近邻算法)的分类效率较低和训练样本不均衡时算法的分类性能受到影响这两个问题,提出变精度粗糙集的加权KNN文本分类算法。利用变精度粗糙集上下近似的概念,将各个类别的训练集分为β正区域和β边界域。分类过程中根据测试样本与样本中心的相似度,得到样本的归属区域。其中属于β正区域的样本可以直接判断其类别,其它区域的样本用基于数量加权的KNN算法判断其类别。实验结果表明,该算法能有效提高分类的性能和效率。

全文