基于词频和信息熵改进的卡方特征选择

刘辉; 张振康; 王韩林; 晏飞扬

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于词频和信息熵改进的卡方特征选择

作者：刘辉; 张振康; 王韩林; 晏飞扬

来源：计算机仿真, 2022, 39(07): 492-496.

摘要

针对传统CHI方法在选择文本特征时忽略了低频词缺陷和混淆负相关特征的问题，提出一种改进方法。通过考虑特征在类内、类间的分布情况，给CHI模型补充词频信息，弥补单纯依靠文档频率的不足；为了排除某个类别的干扰特征，采用信息熵理论从全局的角度进行衡量，筛选具有类别代表性的词汇。实验结果表明，改进方法分类性能上较传统方法有一定提升，能减少冗余词汇，去除干扰项，增强特征集合的表示效果，最终改善文本语料的分类表现。

单位
通信与信息工程学院; 重庆邮电大学

收藏分享被引浏览

更新时间：2024-03-19 12:51

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号