基于改进CHI和带权ECE结合的特征选择方法

作者:蔡镇; 高健; 秦晓军
来源:计算机应用研究, 2019, 36(10): 2962-2964.
DOI:10.19734/j.issn.1001-3695.2018.03.0240

摘要

针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。