摘要
电力调度知识图谱可有效辅助调度人员进行故障处理、提升电网应急处理能力及智能化水平,近年受到了众多研究者的关注。电力实体识别是建模电力调度知识图谱的基石。现有电力实体识别方法主要基于全监督学习范式,即需要从人工已标注好的数据中学习挖掘实体信息。但人工标注数据耗时耗力,并且相比于电网运行中产生的海量故障处置文本,人工所能标注的数据极为有限。为了能够充分挖掘大规模无标注电力文本中蕴含的实体知识,减轻对有标注数据的需求,降低数据标注工作耗费的人力时间成本,该文提出了一种基于半监督学习的电力实体识别方法(semi-supervised erniebased power entity recognition model,Semi-ERNIE-PER)。该方法引入多粒度掩码预训练模型ERNIE来捕获实体级别的语义信息,并使用所提半监督训练架构和损失函数调度机制来挖掘无标注数据中的实体识别知识,提升电力实体识别性能。为了验证所提出方法的有效性,该文利用电网故障处置预案文本数据集,设计并进行了大量实验。实验结果表明,所提出的半监督电力实体方法相较以往基于全监督学习的最优基线,在全量标注数据下精度、召回率和F1分数上分别提高了4.43%、2.06%和3.24%,特别在标注数据量仅有10%时F1分数相比最优基线提升了15.92%,充分验证了挖掘无标注文本中蕴含的知识对于电力实体识别的有效性。
-
单位国网冀北电力有限公司; 北京邮电大学