摘要

<正>本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与Beautiful Soup简介urllib2在python3中即为urllib.request。由于urllib2