结合有监督广度优先搜索策略的通用垂直爬虫方法

高峰; 刘震; 高辉

doi:10.19678/j.issn.1000-3428.0048511

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

结合有监督广度优先搜索策略的通用垂直爬虫方法

作者：高峰; 刘震; 高辉

来源：计算机工程, 2018, 44(11): 289-299.

DOI：10.19678/j.issn.1000-3428.0048511

摘要

垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。

单位
电子科技大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-25 04:49

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号