摘要

针对不平衡文本分类问题中少数类样本在分类器上预测精度低的问题,提出了一种基于改进的Focal Loss损失函数和EDA(Easy Data Augmentation)文本增强技术的不平衡文本分类算法。在训练数据层面利用EDA文本增强技术对小样本数据进行增强;考虑到样本训练难易程度的动态变化,改进了Focal Loss损失函数平衡因子参数的设定方式;接着利用增强后的数据和改进后的损失函数结合较为简单且保留文本语序信息的DCNN模型进行分类模型的训练。在搜狗新闻数据集上,控制相同的参数进行对比实验,结果表明EDA技术和改进的Focal loss损失函数对于不平衡问题都有一定的改善作用,综合应用两种技术的算法获得了最好的表现。

  • 单位
    中国人民解放军陆军工程大学