摘要
以往使用的垃圾邮件识别方法在面对如今更新速度快且种类繁多的分词时,很难精准地识别出邮件中的关键分词,识别方法的应用能力需要进一步提高。为此,提出一种基于聚类分析算法的垃圾邮件识别方法。首先,预处理邮件样本,得到邮件文本内容的关键分词,剔除停用词,根据分词在邮件文本中出现的频率计算出分词的权重;然后,结合邮件特征属性,构建邮件特征空间,将邮件特征量化;最后,提取出邮件特征并降维处理,将其作为聚类算法的输入,经过迭代计算输出结果从而完成垃圾邮件的识别。实验结果表明:设计的基于聚类分析算法的垃圾邮件识别方法在关键词提取与分词方面更加精确,并且能够准确地识别出垃圾邮件,说明设计的基于聚类分析算法的垃圾邮件识别方法的实际应用能力得到了提高。
- 单位