摘要

随着网页编写技术的不断发展与进步,异步加载技术得到了广泛的应用,如何高效完整的获取异步加载数据显得极为重要。以知乎话题和上交所股票信息为研究对象,利用爬取异步加载时的json请求地址和webdriver模拟网页浏览,设计爬取网页异步加载信息的框架和流程,实现异步加载信息的采集技术,对比采集的速率以及采集到内容的完整性。实验表明,可以使用基于json请求构建的信息爬取方法高效获取普通网页信息,使用基于webdriver的动态信息爬取方法完整的获取社交网站信息。

全文