摘要

Spam Assassin语料库包括规则集和样本集,本实验选用样本集中3万多个垃圾邮件样本,和规则集中的一千条规则。然后对每个样本应用这些规则,生成阈值来计算其为垃圾邮件的可能性。文章实现的基于规则的垃圾邮件过滤算法在实时性、高效性、可靠性、用户个性化,以及识别率上均有较好的表现。