摘要
在电力设备运维管理过程中,如何运用非结构化文本信息,构造电力设备文本语义分析模型,挖掘非结构化文本信息,提升设备缺陷和故障的诊断速度和准确性,辅助电网运行检修决策,是非常具有应用价值的问题。该文提出基于超大规模预训练方法的电力设备文本语义分析模型(PowerBERT)。该模型基于多头注意力机制,采用多层嵌入语义表达结构,模型总参数超过1.1亿,实现对电力文本内蕴含的信息的理解和分析。基于超过18.62亿字符的电力标准、管理规定及检修记录文本构成的电力专业语料,并采用字符掩码、实体掩码、片段掩码等多种掩码机制和动态加载策略开展模型预训练。针对电力设备文本分析场景,在电力文本实体识别、信息抽取和缺陷诊断场景进行任务场景训练和优化。与传统深度学习算法进行对比实验的结果表明,该文所提方法在基于极少的场景任务样本的情况下,在验证集和测试集上实现召回率和精准度20%~30%的性能提升。
-
单位国家电网有限公司; 浙江大学