摘要

通常情感分类模型都假定数据集中各类别样本数之间处于平衡状态,实际上数据集中不同类别样本间并不平衡。当样本间存在样本类别不平衡问题时,会导致训练结果偏向多数类样本,少数类样本分类精度不高。另外,在训练过程中,新加入样本存在贡献衰减问题,这将导致新样本对情感分类的效果影响降低,从而影响最终分类效果。针对以上问题,该文提出一种基于混合采样与代价损失再平衡相融合的多通道双向GRU情感分类方法(Re-balance Multichannel Sampling BiGRU, RMS_BiGRU)。该模型首先在数据集上对样本进行混合重采样处理,根据不同的采样形式输入到不同的神经网络通道中,并在各通道中使用损失函数再平衡策略对新老训练样本进行贡献平衡。该文提出的模型可以缓解神经网络对多数类样本的依赖问题,同时样本空间中的所有样本对训练的贡献都大致相同。实验结果表明,该方法在整体G-mean评价上优于其他情感分类方法。