结合神经文本生成的FLAT模型的中文电子病历命名实体识别

作者:陈鹏; 苏志同; 余肖生
来源:重庆理工大学学报:自然科学, 2022, 36(09): 98-109.
DOI:10.3969/j.issn.1674-8425(z).2022.09.013

摘要

随着医疗信息化的发展,电子病历命名实体识别受到了广泛关注。电子病历中包含大量的专业词汇,而专业词汇的切分错误会使命名实体识别效果不佳。FLAT模型在引入词边界信息时能有效避免分词错误信息的传播,提高命名实体识别效果,但FALT模型依赖于高质量的词典信息。针对这一问题,提出了结合神经文本生成的FLAT模型,使用神经文本生成方法生成大量新病历文本,通过提出的评分函数筛选通顺的文本训练词向量作为FLAT模型的词典信息。实验表明:结合神经文本生成的FLAT模型在CCKS2017数据集上取得了95.32%的F1分数,比BiLSTM CRF模型提高了1.16%,比BERT CRF模型提高了0.89%;在CCKS2019数据集上取得了85.87%的F1分数,比BiLSTM CRF模型提高了5.19%,比BERT CRF模型提高了1.34%。

全文