摘要
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于Bi LSTM-CRF、Bi LSTM-CNN和Bi GRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。
-
单位南京邮电大学; 自动化学院