摘要

针对传统CHI方法在选择文本特征时忽略了低频词缺陷和混淆负相关特征的问题,提出一种改进方法。通过考虑特征在类内、类间的分布情况,给CHI模型补充词频信息,弥补单纯依靠文档频率的不足;为了排除某个类别的干扰特征,采用信息熵理论从全局的角度进行衡量,筛选具有类别代表性的词汇。实验结果表明,改进方法分类性能上较传统方法有一定提升,能减少冗余词汇,去除干扰项,增强特征集合的表示效果,最终改善文本语料的分类表现。