摘要
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。
-
单位南京师范大学泰州学院