摘要
基于文本分类的过滤方法是目前解决垃圾邮件危机的主要手段,但仍然缺乏规范化的模式和方法以及较高检索性能的过滤机制。该文提出了借助邮件特征域的思想解决上述问题,介绍了特征词与特征域的概念,从利用类间相关评估函数对训练语料进行分析入手,构建特征词典。分析了邮件特征域在邮件主题表达力方面的重要作用,给出了基于特征域词频TF的权值计算方法,并改进了传统的文本相似度计算概率模型。通过实验加以验证,说明提出的方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善。
- 单位