摘要
针对深度神经网络(DNN)中可解释性导致模型信息泄露的问题,证明了在白盒环境下利用Grad-CAM解释方法产生对抗样本的可行性,其次提出了一种无目标的黑盒攻击算法——动态遗传算法。首先该算法根据“解释区域”与扰动像素位置的变化关系改进了适应度函数;然后通过多轮的遗传算法不断减少扰动值的同时递增扰动像素数量,每一轮的结果坐标集会在下一轮的迭代中保留使用,直到在未超过扰动边界的情况下扰动像素集合使预测标签发生翻转。在实验部分,AlexNet,VGG-19,ResNet-50和SqueezeNet模型下的攻击成功率平均为92.88%,与One pixel相比,虽然增加了8.3%的运行时间,但成功率提高16.53%。此外,能够在更短的运行时间内,成功率高于Ada-FGSM算法3.18%,高于PPBA算法8.63%,并且与Boundary-attack相差不大。结果表明基于解释方法的动态遗传算法能有效进行对抗攻击。
- 单位