摘要

大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快。python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程。本文对几种爬虫技术进行了比较,提出了一种新的基于scrapy开源框架的改进爬虫算法,在主题相关性分析中采用基于贝叶斯分类器的算法,在解析网页中结合dom树的分块算法,对scrapy框架下的url过滤和去重进行优化,对特定目标中相关的网页内容进行了爬取,经过实验表明,查准率有了提高,耗时缩短了,总体来说,改进后的算法优于之前的算法。

  • 单位
    宿州职业技术学院