摘要

针对电子邮件敏感信息特征种类多,敏感信息过滤难度大的问题,提出一种基于决策树的过滤算法优化方法。建立电子邮件向量空间模型,给出信息对应词和所属类别向量关系,计算敏感信息中某一代表性词语与类别间的对应关系,通过词频出现概率求得所属类别,提取邮件特征。考虑到敏感信息在不同时间点的词义特性会发生变化,建立决策树,通过映射得到敏感信息与上下文信息串之间的影响关系,对电子邮件中的敏感信息项添加标签,求得属性值参数,按照参数大小设定邮件抗体的成熟度值,用于调整邮件传输通道宽度,实现精准过滤。实验数据证明,所提方法过滤精准度高,所需运算代价小,具有一定的实用价值。