摘要

K近邻分类器(KNN, The K-Nearest-Neighbor Method)是一种惰性分类算法,其思想简单,具有较高的分类准确率。但当样本容量不均衡时大类别样本会占有密度优势,当训练集含有大量样本时其分类效率较低。本文针对这些问题,提出了一种增加了训练过程的基于聚类分析的最近邻分类算法。该方法首先对训练集中的每一类样本进行聚类分析,将每一类的训练样本划分为多个子类,然后利用了类内样本高度相似的特点,为每个子类计算一个代表样本。对新样本进行分类时,计算该样本与每个子类的代表样本之间的距离,并将其赋予最近的代表样本的类别。为了测试该算法的效果,本文在多个人工合成数据集和真实数据集上进行了实验,实验结果表明,该算法的分类准确率接近甚至优于KNN方法,而且分类效率远远高于KNN方法。

全文