为有效解决KNN算法在文本分类时效率随着数据规模的增大而降低这一问题,提出基于K中心点(K-Medoids)和粗糙集(rough set)的KNN分类方法 (KRS-KNN)。通过K中心点算法对文本数据集进行聚合,形成类簇,计算簇心和其它样本点的相异度,将相异度大于最后簇心相异度的样本剔除,运用粗糙集理论对得到的每个类簇进行分割,通过上、下作差得到的边界样本,通过KNN算法确定其最终类别。实验结果表明,文本数据的计算规模得到了降低,提高了文本数据的分类效率。