摘要

针对院前急救文本专业词汇丰富、特征稀疏和标签混淆程度大等问题,提出一种基于标签混淆模型(LCM)的文本分类模型。首先,利用BERT(Bidirectional Encoder Representation from Transformer)获得动态词向量,充分挖掘专业词汇语义信息;然后,通过融合双向长短期记忆(BiLSTM)网络、加权卷积和注意力机制(Attention)生成文本表示向量,提高模型的特征提取能力;最后,采用LCM获取文本与标签间的语义联系、标签与标签间的依赖关系,解决标签混淆程度大的问题。在院前急救文本和公开新闻文本数据集上进行实验,基于LCM的文本分类模型的F1值分别达到了93.46%、96.89%,相较于TextCNN、BiLSTM、BiLSTM-Attention等模型最高分别提升了7.01%、2.00%。实验结果表明,所提模型能够获取专业词汇的语义信息,更加精准地提取文本特征,能有效解决标签混淆程度大的问题;同时也证明所提模型具有一定的泛化能力。