摘要
垃圾邮件一般是指未经用户请求强行发到用户电子信箱中的包含宣传资料、病毒等内容的电子邮件,它具有批量发送的特征,且会在互联网上造成巨大危害。因此,为用户过滤掉这些垃圾邮件非常重要。垃圾邮件过滤问题的实质是一个文本分类问题,具有很高的特征维度。但并不是所有特征都对分类有贡献,因此选择一个合适的能够反映整个数据集的特征子集是构造一个好的邮件分类器的基础。现有的特征选择方法存在一定的局限性,比如特征之间仍存在冗余、约简特征结果不稳定,以及计算成本高等。研究和分析现有垃圾邮件处理方法的一些优缺点,结合现有方法,提出一个新的基于信息增益方法和粒度球邻域粗糙集方法的集成特征选择方法,即IGGBNRS算法。通过在不同分类模型上的对比实验表明,该算法简化了模型,性能较好。
- 单位