摘要

标准K-近邻分类方法(K-Nearest Neighbor,K-NN)在进行样本预测过程时,需要计算每一个待预测类别标记的样本与所有已知标记样本的距离,因此复杂度较高,无法处理含有大规模有标记样本的分类问题。针对这个问题,本文提出一种基于采样压缩的加速K-NN分类方法(K-NN Method Based on Sampling Compress,KNNsub>S)。该方法将采样思想引入到K-NN分类过程当中,即对于每一个新来的未知类别的待测样本,不是计算其与所有带类别标签样本的距离,而是通过采集一定数量的有标记样本,计算这部分有标记样本中距离待测样本最近的近邻样本,来对待测样本进行分类。实验结果表明,本文提出的KNNsub>S方法能够加速K-NN分类的过程。

  • 单位
    晋中学院