摘要

跨度分类是嵌套命名实体识别常用的方法,但由于需要穷举并验证每一个跨度,存在高复杂度和数据不平衡的问题。并且,由于对每个跨度是单独进行预测,忽视了文本序列中存在的实体间的依赖关系。针对跨度分类方法存在的上述问题,文中提出了一种基于跨度解码的嵌套命名实体识别方法。首先,结合词性特征、字符特征、词特征以及上下文特征对文本进行编码,获取文本丰富的语义信息;然后,识别可能的实体开始位置,在此基础上穷举可能的实体跨度,一定程度地减少潜在的实体跨度;最后,使用基于注意力机制的解码器逐一对每个开始所对应的实体跨度的类型进行预测,解码过程中将已预测的实体信息进行传递,进而捕获和学习实体间的依赖关系。实验结果表明,跨度解码可以有效地改进跨度分类,所提出的方法在公共的英语嵌套实体数据集ACE2005和GENIA上的F1分数分别提高了0.45%和0.14%。