摘要

针对传统特征选择方法在中文垃圾邮件过滤处理中出现的特征项提取不明确、过滤精度低的问题,提出了一种基于堆叠式降噪自编码器(Stacked Denoising Autoencoder,SDA)的中文垃圾邮件过滤方法.首先,对处理后的语料使用Word2vec工具集中的连续词袋(Continuous Bag-of-Words,CBOW)模型进行训练,得到对应的词向量;接着以词向量作为输入,采用堆叠式降噪自编码器深度网络以无监督学习方式对其进行有效的特征提取;最后,采用改进的Softmax分类器对网络进行有监督微调.该方法在TREC06C数据集上进行测试,将准确率、精确率、召回率、更能衡量二分类效果的f1得分值作为实验评价标准,实验结果表明,相比于贝叶斯模型、KNN分类算法、SVM以及传统的堆叠式降噪自编码器,方法的准确率、精确率、召回率及f1得分值达到了93.5%、94.8%、92%和93.2%,在中文垃圾邮件过滤中拥有更好的二分类效果和健壮性.