特征的高维性和数据的稀疏性问题会严重影响分类的准确性,卡方统计可以在保持分类精度不变的情况下,有效地对高维文本数据特征进行筛选。文章通过KL散度检验观测值与理论值的偏差程度,用KL散度度量特征与类别之间的相关性,改进了现有的最大或平均全局评价方法。采用KNN分类模型在标准数据集上进行实验的结果表明,所提方法在大幅度降低文本数据特征向量空间维数的同时,还能推动分类性能的提高。