摘要
小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER(Wheatpestsanddiseases Chinese Named Entity Recognition)及其领域词典WpdDict(Wheatpestsanddiseases Dictionary),并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA(WheatPestsand Disease-Rules Amendment model),该模型基于ALBERT+BiLSTM+CRF(ALiteBERT+ Bi-directionalLongShort-TermMemory+ConditionalRandomField,轻量级BERT+双向长短期记忆网络+条件随机场)进行实体识别,并在识别后定义具体规则校准实体边界。融合规则后的ALBERT-BiLSTM-CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比于不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71%、0.34%、1.03%。试验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路。
- 单位