摘要
网络资源获取技术对情报研究领域意义重大,网页改版现象频繁发生,为爬虫技术中的网页信息抽取任务带来了极大的挑战。针对网页频繁改版带来的网页源码变动,尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动引起的爬虫代码失效、人力维护成本过高的问题,文章提出基于网页源码结构理解的自适应爬虫代码生成方法。首先,网页结构特征变动以及网页改版事件常呈现一定规律特征,可分为大规模结构性变化、局部结构性变化和非结构性变化,可以通过分析网页结构特征变动规律,提取相应爬虫代码;然后,利用Encoder-Decoder模型表征网页源码及代码的变动,融合网页源码自身结构语义特征、网页源码变动特征及代码变动特征,得到自适应代码生成模型;最后完善自适应系统的感知、生成和激活机制,从而形成具有自适应处理能力的爬虫系统。经实验验证,自适应代码生成模型以78.5%的最终准确率在网页源码变动的表示与代码生成的有效性上表现出了一定的优越性。因此,基于网页源码结构理解的自适应爬虫代码生成方法能够解决网页源码变动引起的爬虫代码运行问题,为网络资源获取即爬虫技术的自适应处理能力提供新思路。
- 单位