基于Python爬虫技术实现

望江龙; 王晓红<sup>*</sup>

doi:10.16184/j.cnki.comprg.2019.09.006

摘要

随着科技时代的飞快发展,使用技术和创新来搜索数据,是大数据研究的方向。基于Python的网络爬虫提取数据是目前使用频率较高的一种技术方式,Python语言简洁、开发速度快、可以跨平台的特点,通过第三方request库对网页进行获取返回值的内容。通过Python 3种筛选方式对网页中的数据进行快速的匹配。使用正则、XPath和Beautiful Soup这3种筛选技术对某个网页中的图片和文字进行提取。这样不仅能很精准地找到网页中所需数据,而且能自动快速地将这些数据永久地保存下来,大大减少寻找数据的时间。当爬虫技术的不断优化,功能也越来越强,数据盗取情况日益严重,很多网站采用了反爬虫技术,因此正常的数据搜集需要一定的反反爬虫技术手段。

单位
武汉商学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-10 19:52

基于Python爬虫技术实现

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友