摘要

为了解决渔业标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,提出了基于E-BIO标注法和融合注意力机制的BiLSTM+CRF (BiLSTM+Attention+CRF)命名实体识别模型,E-BIO标注法引入渔业标准文本中的结构化信息,可以使模型有效学习上下文结构特征,而注意力机制输出不断变化的语义向量,可有效解决长序列语义稀释问题。为验证所提出方法的有效性,在采用E-BIO方法标注的语料上进行对比试验,结果显示,BiLSTM+Attention+CRF模型对不同类别的渔业标准命名实体识别的准确率均能达到90%以上,召回率均能达到85%以上。研究表明,本研究中提出的BiLSTM+Attention+CRF命名实体识别模型可以有效利用上下文结构特征,避免了语义稀释问题,对于渔业标准命名实体识别具有较好的识别性能。