摘要

传统的医学文本数据分类方法忽略了文本的上下文关系,每个词相互独立,无法表示语义信息,文本描述、分类效果差,并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低、精度低的问题,本文提出了一种基于Transformer双向编码器表示(Bidirectional Encoder Representations from Transformers, BERT)、卷积神经网络(Conventional Neural Networks, CNN)和双向长短期记忆(Bi-directional Long Short-Term Memory, BiLSTM)神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量,并结合CNN和BiLSTM的特点,捕捉局部潜在特征、上下文信息。最后,本文将CMNN模型与传统的深度学习模型TextCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上优于其他模型,准确率提高了1.69%-5.91%。