摘要
变压器故障分析报告文本包含设备故障现象的描述,但描述语言因人而异、专业性强,且单个故障描述文本中可能存在多种故障类型,造成机器自动判断困难。因此提出一种针对变压器故障描述进行具体故障类型聚类的机器识别算法Kbert(BERT+K-Means++)。该算法首先将变压器故障文本转换为批量化高维文本矩阵;其次,根据故障表述文本迭代改进中文BERT模型中关键权重参数,以获得全局语义向量。同时在迭代改进中,根据样本拟合的难易程度,Kbert模型对不同样本的识别损失值权重进行动态修正;最后,通过K-Means++算法,Kbert改进了原有单一BERT模型难以处理单一故障文本包含多故障类型的不足。算例对全国782份真实变压器故障分析报告文本进行了故障类型识别。结果表明,所提出的Kbert模型克服了变压器故障描述文本距离长、样本种类分类不均导致的机器训练效果不佳的问题,性能指标F1值优于常用BERT和Bi-LSTM+Attention方法,实现了多种变压器故障信息的高准确率快速聚类识别。
-
单位新能源电力系统国家重点实验室; 华北电力大学