摘要

基于深度神经网络的图像分类模型容易受到对抗样本的攻击。现有研究表明,白盒攻击已经能够实现较高的攻击成功率,但在攻击其他模型时对抗样本的可迁移性较低。为提高对抗攻击的可迁移性,本文提出一种梯度聚合增强对抗样本迁移性方法。首先,将原始图像与其他类别图像以特定比例进行混合,得到混合图像。通过综合考虑不同类别图像的信息,并平衡各类别之间的梯度贡献,可以避免局部振荡的影响。其次,在迭代过程中聚合当前点的邻域其他数据点的梯度信息以优化梯度方向,避免对单一数据点的过度依赖,从而生成具有更强迁移性的对抗样本。在ImageNet数据集上的实验结果表明,所提方法显著提高了黑盒攻击的成功率和对抗样本的可迁移性。在单模型攻击上,本文方法在四种常规训练模型的平均攻击成功率为88.5%,相比Admix方法提升了2.7%;在集成模型攻击上平均攻击成功率达到了92.7%。此外,所提方法可以与基于转换的对抗攻击方法相融合,在三种对抗训练模型上平均攻击成功率相较Admix方法提高了10.1%,增强了对抗攻击的可迁移性。