摘要

针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制(Self-Attention)实现不同单词之间的内部交互;最后,通过基于双线性注意力机制(Bilinear Attention)的词汇适配器(Lexicon Adapter)将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,该模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在与BERT结合之后,取得了最优的效果。