基于医学大数据的预训练语言模型及其医学文本分类研究

黄敏婷; 赵静<sup>*</sup>; 于涛

摘要

目的:构建基于医学文本的预训练语言模型,以解决基于通用语料的预训练语言模型不适应医学文本分类的问题。方法:使用PubMed医学论文摘要数据和PMC医学论文全文数据在通用预训练语言模型Bert上进行二次预训练,得到医学领域的预训练语言模型Bio Bert,使用标注好的文本数据对Bio Bert进行微调,得到最终的医学文本分类模型。结果:病历文本和医学论文摘要文本两个数据集的分类实验显示,经过医学文本二次预训练的预训练语言模型在两个数据集上都取得了较好的分类效果。结论:通过自训练的方式对大量医学文本进行预训练得到的医学领域预训练语言模型,能在一定程度上解决使用通用预训练语言模型无法很好适配医学文本分布而导致分类性能偏低的问题。

单位
北京中医药大学

收藏分享被引(3) 浏览

更新时间：2024-04-12 13:16

基于医学大数据的预训练语言模型及其医学文本分类研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友