卡方统计中基于KL散度的高维文本数据特征筛选

甄志龙; 张居晓<sup>*</sup>

doi:10.13546/j.cnki.tjyjc.2022.17.008

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

卡方统计中基于KL散度的高维文本数据特征筛选

作者：甄志龙; 张居晓^*

来源：统计与决策, 2022, 38(17): 43-46.

DOI：10.13546/j.cnki.tjyjc.2022.17.008

摘要

特征的高维性和数据的稀疏性问题会严重影响分类的准确性，卡方统计可以在保持分类精度不变的情况下，有效地对高维文本数据特征进行筛选。文章通过KL散度检验观测值与理论值的偏差程度，用KL散度度量特征与类别之间的相关性，改进了现有的最大或平均全局评价方法。采用KNN分类模型在标准数据集上进行实验的结果表明，所提方法在大幅度降低文本数据特征向量空间维数的同时，还能推动分类性能的提高。

单位
南京特殊教育师范学院; 通化师范学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 16:06

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号