基于SoftLexicon和对抗训练的中文医疗命名实体识别

潘世鹏; 吐尔地·托合提<sup>*</sup>; 梁毅; 艾斯卡尔·艾木都拉

doi:10.13451/j.sxu.ns.2023165

摘要

现有的医疗实体识别模型当中，多数模型不能充分提取和利用文本序列当中词汇信息，且模型结构复杂；使得模型在面临医疗领域的文本时存在实体边界识别不准、鲁棒性较差等问题，并且多数基于字粒度的NER方法对信息遗漏此类问题解决不够完善。针对此类问题，本文提出了一种基于字词融合和对抗训练的命名实体识别模型。模型使用预训练模型BERT获取文本序列的字向量；然后使用SoftLexicon引入词典信息并在字向量中添加对抗训练生成的扰动样本；最后使用BiLSTM-CRF进行特征提取并获取序列标注结果。所提出模型在数据集CCKS2019和CCKS2020上进行实验，F1值分别到达了85.07%和90.39%。实验结果表明，与基准模型相比，该模型的F1值提升了2.31%和2.88%，说明字词融合方法和对抗训练相结合能够有效识别医疗实体。

单位
新疆大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-01-12 07:16

基于SoftLexicon和对抗训练的中文医疗命名实体识别

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友