摘要

由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网络相空间格局内抓取目标数据;最后,Python爬虫以爬取目标为数据特性,以空间划分结果为基础,对库中的页面进行个性化标记,抽取页面包含的所有统一资源定位系统(Uniform Resource Locator,URL)信息,将其与已抓取队列信息进行比较,确定爬取结果的完整性。测试结果表明,设计方法可以适应不同网络环境,实现对网页数据的快速、有效抓取。

  • 单位
    盐城幼儿师范高等专科学校