摘要

关于的糖尿病药物不良反应文本语料在目前中文社交媒体中较少见。为了解决这类数据的短缺问题,本文提出一种文本增强的糖尿病药物不良反应检测模型。模型采用Bert预训练模型和word2vec模型对文本进行词向量编码,以Bert文本增强技术缓解数据不平衡问题和深度学习模型提取中文抗糖尿病药物不良反应文本特征。实验结果表明,在采用Bert数据增强后,Bert词向量与BiLSTM结合时的不良反应文本分类在测试集上的F1值最优达98.62%,相比Word2vec词向量提高1.23%,相比数据不平衡状态提高5.69%。

全文