摘要
针对分类任务中样本数据不均衡,分类模型在少数类上准确率不高的问题,本文提出一种基于EnsNet和MCGAN模型的背景风格迁移和字体风格迁移的级联处理方法,EnsNet模型较好地实现复杂背景的字体擦除和字体提取,MCGAN模型实现提取出的字体进行风格迁移与数据扩充.在确保满足样本多样性的前提下,通过两组模型的级联方法,实现了少数类样本跨数量级扩充.实验结果表明,首先,选用优化后的LeNet5-BN样本扩充效果进行验证,在数据分布严重不均衡的原始真实数据上,少数类识别准确低于99.50%,在使用数据扩充方法后的合成数据集上,原少数类识别准确率达到99.98%,其次继续采用Resnet和Mobilenet模型进一步验证扩充样本前后分类识别准确率,扩充前后的分类准确率分别从99.88%和99.8%,分别提升到99.96%和99.95%,样本扩充效果通过多组模型得到了很好的验证,最后,选用LeNet5-BN模型,实现了十次交叉验证实验,平均识别准确率从99.50%提升至99.98%,进一步表明样本跨数量级扩充模型具有较好的鲁棒性.
- 单位