摘要

针对多标签文本分类算法忽视噪声标签和缺乏真伪组合激励导致模型鲁棒性不强、分类效果不佳的问题,提出了适用于短文本数据集的融合级联BiLSTM和胶囊网络的噪声多标签文本分类算法(Cascaded BiLSTM-Capsule Network for Noisy Multi-Label Text Classification,CBCN)。该算法利用胶囊神经网络提取token间的空间语义特征,并采用多层级联BiLSTM对输入文本进行多层次特征提取,使用噪声样本训练和增强训练来区分真实标签和噪声标签,从而实现正确的多标签组合识别。CBCN算法在AAPD和RCV1-V2两个公开英文数据集上的准确率达到了89.1%和91.1%。该算法对解决噪声多标签文本分类问题,具有较强的鲁棒性和泛化性能。