摘要
配网系统存储着大量闲置的设备缺陷文本,可采用命名实体识别技术对其进行挖掘和利用。针对目前电力设备缺陷文本数据人工标注效率低,且专业领域实体识别困难的问题,提出一种新的标注策略和基于Bert-CRF(Bidirectional encoder representation from transformers-Conditional Random Fields)的命名实体识别模型。利用基于半监督学习的BIO(Begin、Internal、Other)标注,减少人工标注占比,提升标注速率,接着利用Bert预训练模型得到包含丰富语义信息的动态词向量,最后利用CRF层对标签进行约束。所提模型在自制配网一次设备缺陷文本数据集上进行了对比试验,该数据集包含9 186条文本数据,12个大类25个小类。实验结果表明,文中模型取得了很好的效果,精确率、召回率和F1值分别达到97.85%、97.36%、97.34%,验证了该模型优于其他5种模型。
-
单位武汉理工大学; 自动化学院