摘要
神经网络在图像分类任务上表现优异,但神经网络本身极易受添加微小扰动的对抗样本的影响,造成神经网络输出错误的分类结果。而目前防御方法存在图像特征提取能力不足、对图像关键区域特征关注较少的问题。针对这些问题,提出了一种融合残差密集自注意力机制和生成对抗网络的攻击防御模型——RD-SA-DefGAN。该模型将生成对抗网络和投影梯度下降(PGD)攻击算法相结合,吸收PGD攻击算法生成的对抗样本进入训练样本扩充训练集,辅以条件约束稳定模型的训练过程。该模型结构添加了残差密集块和自注意力机制,在充分提取特征的同时,增强了关键区域特征对分类任务的贡献度。在CIFAR10、STL10和ImageNet20数据集的实验结果表明,RD-SA-DefGAN能对对抗样本实施有效防御,在抵御PGD对抗样本上优于Adv.Training、Adv-BNN、Rob-GAN等防御方法。相较于结构最近似的Rob-GAN,在CIFAR10数据集上,RD-SA-DefGAN在扰动阈值为0.015~0.070时,防御成功率提升了5.0个百分点~9.1个百分点。
- 单位