基于预训练模型的医药说明书实体抽取方法研究

陈仲永; 黄雍圣<sup>*</sup>; 张旻; 姜明

摘要

药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据，具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题，此项研究采用“大模型+小模型”的设计思路，提出了一种基于预训练模型的部分标签命名实体识别模型，先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体，再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码，使用Transformer提取特征表示，最后通过条件随机场（Conditional Random Fields，CRF）预测实体标签。为了减少训练模型的标注数据，利用标注样本实体掩盖策略，提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性，结果表明在精确率（Precision，P）、召回率（Recall，R）和F1分数上分别为85.0%、86.1%、85.6%，比其他学习方法更具优势。

单位
杭州电子科技大学

收藏分享被引浏览

更新时间：2024-01-12 06:58

基于预训练模型的医药说明书实体抽取方法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友