摘要

网页广告已经成为互联网生态系统的主要经济来源,但随着恶意广告的传播和泛滥,越来越多的网页广告跟踪、窃取用户的隐私数据,对用户的信息安全构成了威胁.因此,大多数用户倾向于在浏览器上安装广告过滤器.现有的广告过滤器,如Ad Block Plus,通过维护一个大的黑名单列表来过滤广告,需要不定期更新列表,运行、维护的代价很大.为此,本文提出了一种结合网页代码静态分析和特征识别的方法来实现广告的自动过滤.该方法首先通过一个简短的过滤列表来过滤确定的广告(Java Script文件),然后对其余的Java Script文件进行静态分析并提取出一系列特征向量,进而训练分类器得到广告识别模型.最后实现了一个Chrome浏览器插件Tri Filter,来完成广告的识别与屏蔽.实验结果表明本文方法在准确率和召回率方面优于现有的广告屏蔽工具.

  • 单位
    南京大学; 计算机软件新技术国家重点实验室