摘要
为解决昆虫数据集数据分布不均衡导致识别模型在数据量少的尾部类别的识别性能差的问题,提出1种融合数据合成的卷积识别网络模型(synthetic samples combined model,SSCM),该模型包含图像分割与重组模块、主干网络模块和数据纠正分支模块等3个模块。通过图像分割与重组模块对训练的图片进行分割并重组,得到新的训练数据并加入训练集;再使用ResNet-50作为网络主干提取图片的特征,同时数据纠正分支模块采用均方误差与交叉熵计算合成图像与原图像之间的误差,以减少合成图像对尾部数据的不利影响。构建包含300个蝴蝶类别共26 045张图片的数据集验证模型性能,结果显示,SSCM模型在该数据集上的准确率较DRC、BBN、RIDE等主流长尾目标识别模型分别高3、2.14、2.71个百分点。采用公开昆虫数据集IP102进一步验证SSCM算法的有效性,结果显示,SSCM模型准确率比DRC、BBN、RIDE等模型分别高18.94、3.02、3.36个百分点。
-
单位华南农业大学; 电子工程学院