一种改进TF-IDF的中文邮件识别算法研究

吴小晴; 万国金<sup>*</sup>; 李程文; 林梦思; 曹书强

doi:10.16652/j.issn.1004-373x.2020.12.020

摘要

传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。

单位
南昌大学信息工程学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-27 12:51

一种改进TF-IDF的中文邮件识别算法研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友