摘要

文本分类是一种有效组织和管理文本信息的数据挖掘方法.其中,特征选择是文本分类过程中最重要的环节之一.本文针对传统CHI特征选择算法忽略高频特征词和放大外围特征词权重的问题,提出一种基于MapReduce的CHI文本特征选择机制.一方面引入类内频率和类间方差,优化CHI方法的性能,从而提高文本分类精度.另一方面基于MapReduce模型对文本分类进行并行处理,提高了文本分类的执行效率.实验结果表明,基于MapReduce的CHI文本特征选择机制不仅能有效提高文本分类精度,也提升了文本分类的效率.