摘要

“互联网+”的兴起打破了数据信息的壁垒,网络爬虫被广泛应用于数据采集与数据分析中.以“豆瓣电影top250”为目标,采用基于Python语言的爬虫技术,对比BeautifulSoup、Re和Xpath 3种网页解析方式的不同,完成目标数据的爬取.实验结果表明:在数据解析速度上,Re最优;在网页解析逻辑上,BeautifulSoup最优;在综合使用角度上,Xpath较为适宜.

  • 单位
    安徽粮食工程职业学院