摘要
随着科技时代的飞快发展,使用技术和创新来搜索数据,是大数据研究的方向。基于Python的网络爬虫提取数据是目前使用频率较高的一种技术方式,Python语言简洁、开发速度快、可以跨平台的特点,通过第三方request库对网页进行获取返回值的内容。通过Python 3种筛选方式对网页中的数据进行快速的匹配。使用正则、XPath和Beautiful Soup这3种筛选技术对某个网页中的图片和文字进行提取。这样不仅能很精准地找到网页中所需数据,而且能自动快速地将这些数据永久地保存下来,大大减少寻找数据的时间。当爬虫技术的不断优化,功能也越来越强,数据盗取情况日益严重,很多网站采用了反爬虫技术,因此正常的数据搜集需要一定的反反爬虫技术手段。
-
单位武汉商学院