摘要
垃圾信息的识别是自然语言处理方面主要的任务之一。传统方法是基于文本特征或词频方法机器学习方法,其识别准确率主要依赖于特定关键词的出现与否,因而对关键词识别错误或未出现关键词的垃圾信息文本识别能力较差。为此,本文利用当前基于神经网络的方法,针对这一类垃圾信息文本进行了识别训练和测试。从垃圾短信、广告和垃圾邮件数据集中挑选出传统方法识别困难的垃圾信息,组成了新的数据集。以卷积神经网络和循环神经网络为基础,建立了三个模型,并在新数据集上进行识别训练。实验结果表明,基于神经网络的方法可以从文本中学习到更好的语义特征,在三个数据集上均能达到98%以上的准确率,高于朴素贝叶斯、随机森林、支持向量机等传统方法。实验结果还显示,不同的神经网络适用于不同长度的文本分类,由循环神经网络组成的模型擅长识别句子长度的文本,由卷积神经网络组成的模型擅长识别段落长度的文本,由两者共同组成的模型擅长识别篇章长度的文本。
- 单位