摘要

深度学习缺乏可解释性,其容易受到对抗性样本的攻击。对此引入一种深度学习可解释性模型Grad-CAM(Gradient-weighted Class Activation Mapping),通过神经网络输入和输出之间的映射关系得到输入的热力图,结合FGSM(Fast Gradient Sign Method)引入一种高效的算法来生成对抗样本。实验证明,该算法能够挖掘潜在的最佳攻击位置,仅需要修改3.821%的输入特征,就能有效生成使得神经网络错误分类的对抗样本,充分验证了该算法的高效性。