基于Python的爬虫技术的网站设计与实现

作者:肖新凤; 张绛丽; 邓祖民
来源:现代信息科技, 2020, 4(14): 73-78.
DOI:10.19850/j.cnki.2096-4706.2020.14.021

摘要

随着爬虫技术的不断完善,其功能越来越强大,也导致数据窃取问题越来越严重。很多网站都采用了反爬虫技术,因此为了正常获取数据,需要一些反爬虫策略。文章设计和实现面向定向网站的网络爬虫程序,使其能满足不同的性能要求,并阐述了定向网站爬虫的细节和应用环节。爬虫可以针对不同的主题网站分析构造URL并去重,多线程技术让爬虫具备更强大的抓取能力。