基于DBSCAN聚类的改进KNN文本分类算法

作者:苟和平; 景永霞; 冯百明; 李勇
来源:科学技术与工程, 2013, 13(01): 219-222.
DOI:10.3969/j.issn.1671-1815.2013.01.048

摘要

K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度。当训练样本过多时,计算代价大,分类效率降低。因此,提出一种基于DBSCAN聚类的改进算法。利用DBSCAN聚类消除训练样本的噪声数据。同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量。

全文