摘要
基于单个字符特征的序列标注方法被广泛应用于中文命名实体识别任务,其中,改善单个字符的表示方法,在其原向量表示中融合更丰富的上下文信息,可提高实体识别的性能.为此,提出了一种面向实体识别任务的中文字符表示方法.首先筛选出文本中所有字符的候选实体集,然后构建文本字符与其候选实体的字符—实体关系图,通过图注意力网络对字符—实体关系邻接矩阵中的字符表示进行更新,从而得到融合上下文实体语义信息的字符表示.将这种字符表示输入到BiLSTM—CRF实体识别模型中进行实体识别任务测试,实验在BiLSTM—CRF+biword模型上的F1值最优,在Resume、Weibo(NE)、OntoNotes、MSRA这4个数据集中的F1值分别为95.38%、56.70%、74.06%、93.26%,较基于单个字符信息表示的NER方法F1值分别提高1.88%、10.69%、10.03%、4.18%,证明了所提出的字符表示方法在中文NER任务中的有效性.
- 单位