摘要
公众社交媒体中,健康话题短文本存在特征维度稀疏、语义模糊、数据规模大等特点,导致其文本特征难以提取。对此,提出一种融合ERNIE和Bi-LSTM的融合模型ERNIE-Bi-LSTM,通过渐进式学习方法和双向注意力机制,提升健康话题短文本的分类效果。以微博、知乎、今日头条等7个社交媒体的热榜数据为实验对象,使用ERNIE模型完成预训练,利用BiLSTM双向注意力机制提取短文本词向量的特征,最终将获取的特征向量进行融合,并通过全连接层和Softmax分类器,获得短文本分类结果。实验结果表明,在真实社交媒体健康话题数据中,ERNIE-Bi-LSTM较ERNIE、Bert等4种文本分类模型具有较好的分类准确性,有效解决了健康话题短文本的分类问题。
-
单位中国医学科学院医学信息研究所