摘要

随着信息化时代的蓬勃发展,数据量呈指数级的增上,海量的网络数据资源具有巨大的研究价值以及商用价值,网络爬虫技术顺势而生。由于单机爬取数据无法应对指数级增长的海量数据,分布式爬虫系统更好的解决了此弊端。文章主要浅析分布式爬虫系统的基本原理及涉及到的相应技术,简单阐述分布式爬虫系统的实现的基本步骤与相应的技术实现。