摘要

中医逐渐成为热点,中医病历文本中包含着巨大而宝贵的医疗信息。而在中医病历文本挖掘和利用方面,一直面临中医病历文本利用率低、抽取有效信息并对信息文本进行分类的难度大的问题。针对这一问题,研究一种对中医病历文本的提取与自动分类的方法具有很大的临床价值。文中尝试提出一种基于BERT+Bi-LSTM+Attention融合的病历短文本分类模型。使用BERT预处理获取短文本向量作为模型输入,对比BERT与word2vec模型的预训练效果,对比Bi-LSTM+Attention和LSTM模型的效果。实验结果表明,BERT+Bi-LSTM+Attention融合模型在中医病历文本的提取和分类方面达到了最高的AverageF1值(即89.52%)。通过对比发现,BERT较word2vec模型的预训练效果有显著的提升,且Bi-LSTM+Attention模型较LSTM模型的效果有显著的提升,因此提出的BERT+Bi-LSTM+Attention融合模型在病历文本抽取与分类上有一定的医学价值。