摘要
针对医疗文本命名实体识别缺乏足够标记数据的问题,提出了一种新的命名实体识别神经网络和数据增强方法。该方法首先利用汉字的拼音和笔画来扩展Bert词向量,使Bert词向量能够包含更多先验知识;接着将命名实体识别模型与分词模型进行联合训练,以增强模型对于实体边界的判别能力;最后采用改进的数据增强方法处理训练数据,能够在避免模型过拟合的同时增加模型对于命名实体的识别效果。在CCKS-2019提供的电子病历文本上的实验结果表明,所提出的方法在小样本情况下能有效提高命名实体识别的准确率,在训练数据减少一半的情况下,识别率仍能保持没有明显下降。
- 单位