摘要

在计算视觉领域中,训练卷积神经网络往往需要大量的数据,网上公开的数据集,少说也有几十万张,但是在现实中我们能拥有的数据集资源往往没有那么多,数据量少,这是一方面。在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的,当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的效果。因为实际数据往往分布得很不均匀,都会存在"长尾现象"。数据分布不均匀,数据量少,往往会造成过拟合等问题,数据量少可以通过扩充训练数据的方法来解决,现在有基本的对图像的裁剪、翻转、缩放、平移、尺度变换、对比度变换、噪声扰动、颜色变化等数据增强的方法,但是这些方法都是基于原有的数据集,虽然能一定程度上解决数据集过少的问题,但是对数据分布不均匀并没有多大的帮助,文章对此提出一种易于实现且对数据分布不均匀具有一定作用的解决方案。