摘要
针对军事航空维修领域命名实体识别训练数据少,标注成本高的问题,改进提出一种基于预训练BERT的命名实体识别方法,借鉴远程监督思想,对字符融合远程标签词边界特征得到特征融合向量,送入BERT生成动态字向量表示,连接CRF模型得到序列的全局最优结果,在自建数据集上进行实验,F1值达到0.861。为压缩模型参数,使用训练好的BERT-CRF模型生成伪标签数据,结合知识蒸馏技术指导参数量较少的学生模型BiGRU-CRF进行训练。实验结果表明,与教师模型相比,学生模型以损失2%的F1值为代价,参数量减少了95.2%,运算推理时间缩短了47%。