基于Scrapy的分布式爬虫系统的设计与实现

李代祎; 谢丽艳; 钱慎一; 吴怀广

doi:10.13501/j.cnki.42-1569/n.2017.09.016

摘要

随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.

单位
郑州轻工业学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-11 15:46

基于Scrapy的分布式爬虫系统的设计与实现

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友