摘要

深度神经网络广泛应用于图像分类、目标检测、自然语言处理等领域,然而,相关研究表明深度神经网络易受对抗样本攻击。现有的许多攻击都是基于快速梯度符号法,通过在输入中添加相同幅度的扰动达到攻击效果,这些方法虽然有效但并不利于快速找到具有泛化能力的对抗样本。因此针对对抗样本的泛化性,提出了一种稳定自适应矩估计和空间域变换的梯度优化方法来改进现有的对抗样本生成算法。首先将Nesterov算法引入一阶矩估计的更新中,受到AdaBelief算法的启发,将Belief参数引入二阶矩估计,同时根据指数衰减率计算衰减步长以获取更稳定的梯度。另外,从数据增强的角度考虑,提出在对抗样本生成的过程中对输入样本在空间域进行变换,与现有方法不同的是,该方法通过加权不同变换的梯度来更新原有梯度,以此提高对抗样本的可迁移性。实验结果表明,改进的自适应矩估计算法(NABD,Nesterov-AdaBelief Decay)和空间域变换梯度加权算法(STW,Spatial-Domain Tansformation Weighting)相结合后,对抗样本性能显著提升,其白盒攻击成功率能够保持在99.6%以上,同时,黑盒攻击成功率提高到74.5%。

全文