摘要
针对现有主题爬虫技术中存在爬虫覆盖率较低、主题漂移率较高等问题,提出设计一种基于改进VIPS算法的主题退火爬虫技术。通过改进VIPS算法提取当前页面内对对应的视觉块,对视觉块中主要内容实施方式进行判别,将与主题特征相符合的内容块筛选并存入数据库中,将与主题特征不相符的内容块则直接刨除;在Heritrix的基础上,设计主题退火爬虫的结构;通过对规则引擎进行整合,使规则引擎可以在主题退火爬虫中运行,并对执行抓取任务时状态和网页信息进行获取,最终实现了主题退火爬虫技术的实现。仿真结果表明,所提方法爬虫覆盖率较高,且主题漂移率较低,具有一定优势。
- 单位