摘要
随着深度神经网络的广泛应用,其安全性问题日益突出。研究图像对抗样本生成可以提升神经网络的安全性。针对现有通用对抗扰动算法攻击成功率不高的不足,提出一种在深度神经网络中融合对抗层的图像通用对抗扰动生成算法。首先,在神经网络中引入对抗层的概念,提出一种基于对抗层的图像对抗样本产生框架;随后,将多种典型的基于梯度的对抗攻击算法融入到对抗层框架,理论分析了所提框架的可行性和可扩展性;最后,在所提框架下,给出了一种基于RMSprop的通用对抗扰动产生算法。在多个图像数据集上训练了5种不同结构的深度神经网络分类模型,并将所提对抗层算法和4种典型的通用对抗扰动算法分别用于攻击这些分类模型,比较它们的愚弄率。对比实验表明,所提通用对抗扰动生成算法具有兼顾攻击成功率和攻击效率的优点,只需要1%的样本数据就可以获得较高的攻击成率。
- 单位