摘要

通过引入类差分度,提出一种改进的互信息特征选择方法,并同时引入相对词频因子解决传统方法倾向于选择低频词的不足,合理地改善了特征选择的准确率,提高分类的精度和效率。文本分类实验结果表明,所提出方法的平均查全率和平均查准率分别提高了11.26%和8.04%,综合评价指标平均F1值提高了18.55%。