摘要
针对当前黑盒环境中,主流的图像对抗攻击算法在有限的目标模型访问查询次数条件下攻击准确率低的问题,提出一种基于目标特征和限定区域采样的目标攻击算法.首先根据原始图像和目标图像生成初始对抗样本;然后在Simplex-mean噪声区域中进行扰动采样,并根据对抗样本和原始图像差异度以及目标特征区域位置决定扰动大小;最后将扰动作用于初始对抗样本中,使新的对抗样本在保持对抗性的同时缩小与原始图像的差异度.以常见的图像分类模型InceptionV3和VGG16等为基础,在相同的目标模型访问查询,以及与对抗样本和原始图像的l2距离小于55.89的条件下,采用BBA等算法对同一图像集和目标集进行攻击.实验结果表明,在同样的目标模型访问查询和l2=55.89的限制条件下,不超过5 000次目标查询时,在InceptionV3模型上该算法的攻击准确率比同类攻击算法提升至少50%.
- 单位