摘要

针对中文医疗文献中的中文词边界模糊、分词歧义导致传统深度学习方法难以获取词汇语义信息的问题,提出了一种融合嵌入字词特征的中文医疗命名实体识别模型。首先,针对词向量缺失边界特征的问题,将词向量与词性、词边界特征拼接融合,结合注意力机制捕获字符间潜在的依赖权重等特征和增强词汇向量;其次,将通过BERT模型获得的字符向量与增强词汇向量拼接融合作为嵌入的基础上,利用BiLSTM模型提取上下文语义信息特征;最后通过CRF模型进行序列解码。利用瑞金医院标准化代谢性疾病管理中心(MMC)的糖尿病标注数据集对融合嵌入字词特征的中文医疗命名实体识别模型进行实验,获得了较好的结果。