摘要

中文临床自然语言中富含大量的病历信息,对电子病历进行命名实体识别有助于建立医学辅助诊断系统,对医学领域的发展具有重要的意义,同时有利于下游任务如关系提取、建立知识图谱的实现。但中文电子病历存在中文分词困难、医学专业术语多、含有特殊表达方式的问题,易造成文本特征表达错误,于是本文提出基于增强词信息和图注意力的医学命名实体识别研究模型,通过增强局部特征和全局特征提高网络模型的性能。由于嵌入单一的字向量进行中文实体识别易忽略文本中词信息及语义,为此本文在字向量中嵌入与其高度关联的词向量,既增强文本表示,又避免分词错误的问题,并且在嵌入层中嵌入了学习医疗知识的MedBert模型,该模型能根据不同语境动态生成特征向量,有助于解决电子病历中一词多义及专业词汇的问题。同时在编码层中添加图注意力模块增强模型学习文本上下文关系的能力和对医疗特殊语法的学习。最终在cEHRNER和cMedQANER数据集的实验上分别获得了86.38%和84.76%的F1值,与其他模型相比有较好的鲁棒性。