基于云平台的网页抓取架构的研究与设计

作者:范顺利; 周亦敏*
来源:计算机时代, 2018, (09): 21-27.
DOI:10.16644/j.cnki.cn33-1094/tp.2018.09.007

摘要

随着网络数据的迅速增长,网页数据抓取在处理大量数据时遇到了一些挑战,例如大量数据存储,需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构,该架构使用AWS(Amazon Web Services)作为云平台,按需配置计算资源和数据存储;Selenium作为网页自动化工具,调用Web Driver API能够模拟用户使用浏览器。通过实验,比较了该架构与其他基于云的网页抓取架构的不同,并分析了它的优势。

全文