摘要
[目的/意义]命名实体识别是自然语言处理领域中的基础任务,基于深度学习的方法在通用领域的命名实体中取得了显著成果,但在特定领域识别效果不佳。为了解决工业信息化领域标注数据不足,数据特征差异较大、模型难以扩展的问题,首先提出了一种基于Transformer的有限区间命名实体识别模型。[方法/过程]采用预训练模型对文本进行分布式表示,然后利用基于有限区间的标注方法对输入序列进行标注,解决传统标注法在训练过程中可能导致的序列标注不一致的问题。在此基础上,引入迁移学习策略,采用参数共享的方式,将通用领域的命名实体识别模型迁移到工业信息化领域,并在工业信息化领域数据集上进行微调,最终获得在工业信息化领域上表现良好的模型。[结果/结论]实验结果表明,本文提出的有限区间命名实体识别模型在工业信息化领域数据集上的准确率较基线模型提高了8.7%,基于参数迁移的领域命名实体识别方法在人民日报语料和工业信息化领域数据集上的准确率和综合指标F值相较未使用迁移学习的模型分别提高了3.1%和1.1%,证明了迁移策略的有效性。
- 单位