摘要

小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER及其领域词典WpdDict,并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA,该模型基于轻量级BERT+双向长短期记忆网络+条件随机场(ALBERT+BiLSTM+CRF)进行实体识别,并在识别后定义具体规则校准实体边界。融合规则后的ALBERT+BiLSTM+CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71个百分点、0.34个百分点、1.03个百分点。实验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路。