摘要
针对工艺操作说明文本中的命名实体,提出一种基于BiLSTM-CRF模型与词典、规则相结合的识别方法,旨在识别图纸编号、参考标准、零件和零件号等11种实体。基于BiLSTM-CRF模型,使用BERT模型预训练的向量,对相关命名实体进行初始识别;针对工艺操作说明文本中零件和零件号表达方式复杂多样的问题,使用基于词典和规则的方法对此类实体的标注结果进行校正。实验结果表明,该方法在工艺操作说明文本中能较好地完成命名实体识别任务,在测试语料上F1值达到94.03%,比基线提升了4.14%。
- 单位