摘要

深度学习模型在对抗攻击面前非常脆弱,即使对数据添加一个小的、感知上无法区分的扰动,也很容易降低其分类性能.针对现有黑盒对抗攻击方法存在效率低和成功率不高的问题,提出基于拓扑自适应粒子群优化的黑盒对抗攻击方法.首先根据原始图像随机生成初始对抗样本种群;然后根据邻域信息计算各样本的扰动并在搜索空间内迭代,计算动态惩罚项系数以控制样本的适应度值,当迭代多次种群适应度值未提高时,各样本进行邻域重分布,根据进化轨迹调整状态;最后修剪多余扰动获得最终的对抗样本.以InceptionV3等分类模型为攻击对象,使用MNIST,CIFAR-10和ImageNet数据集,在相同的样本数量和模型访问限制条件下,进行无目标对抗攻击和目标对抗攻击实验.结果表明,与现有方法相比,所提攻击方法具有较少的模型访问次数和较高的攻击成功率,对InceptionV3模型的平均访问次数为2 502,攻击成功率为94.30%.