基于CSS选择器技术的信息提取系统设计与实现

作者:张晓然; 张峰
来源:电脑编程技巧与维护, 2019, (08): 101-103.
DOI:10.16184/j.cnki.comprg.2019.08.036

摘要

随着互联网的发展,社交媒体的壮大,个人用户和自媒体登上历史舞台,对于网络信息的整理和分析正在成为运营个人账户和自媒体的一种必要技能。现存网页爬虫技术非常成熟,但是对于自媒体和小团队来说功能冗余、复杂度相对较高,并且由于网页爬虫的设计是基于全量网页分析设计的,而自媒体和小团队往往只对有限的网址目标感兴趣,如果采用网页爬虫技术会得到很多无用信息,还需要投入精力清洗数据费时费力。设计实现一种基于CSS选择器技术的目标信息抽取系统,可以通过配置文章特征,利用DOM数据自动提取目标文章,实现更精准的信息收集。另外,由于采用模拟DOM响应的方式获取信息,同步解决了URL动态生成,网页爬虫无法抓取文章URL的问题。

  • 单位
    国家计算机网络应急技术处理协调中心

全文