基于Scrapy框架的分布式网络爬虫系统设计与实现

作者:周毅; 李威; 何金; 程蕾; 柳璐
来源:现代信息科技, 2021, 5(19): 43-46.
DOI:10.19850/j.cnki.2096-4706.2021.19.011

摘要

针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现对数据信息的实时、有效处理分析。经过实际应用测试,证明基于Scrapy框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率。

  • 单位
    国网辽宁省电力有限公司信息通信分公司