应用主题爬虫的电力网络舆情数据采集

作者:奚增辉; 王卫斌*; 陆嘉铭; 瞿海妮
来源:西安工程大学学报, 2022, 36(02): 72-78.
DOI:10.13338/j.issn.1674-649x.2022.02.010

摘要

传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集。实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法。

  • 单位
    国网上海市电力公司