摘要
在电力生产的过程中,往往会产生大量电力相关的文本数据,但这些数据大多是非结构化数据且体量庞大繁杂,实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化,以此为电力企业发掘新的利润增长点.本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题,提出了基于字符和二元词组特征的命名实体识别的模型.在该模型中,通过使用融合多特征的BERT预训练语言模型得到词嵌入表示,并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层,本文提出的模型在实体类型识别的准确率为92.64%,取得了有效的识别效果.
- 单位