摘要
在不平衡数据下,文本分类模型容易把样本数量较少的类别错分成数量较多的类别。在采样层面上提出一种平滑采样方法,在损失函数层面上根据不平衡分布改进交叉熵损失和标签平滑。复旦文本数据集上的实验表明,每种层面的改进都较基准模型有一定提高。当结合使用采样和损失函数的改进时,TextCNN、BiLSTM+Attention、TextRCNN和HAN模型在宏平均F1值上分别提高4.17%、5.13%、5.06%和6.21%,在G-mean上分别提高6.56%、3.03%、3.92%和5.32%,较好解决了不平衡数据下文本分类任务。
- 单位