摘要
对抗攻击通过在图片上添加微小的扰动使得神经网络错误分类,引起了科研人员的广泛关注。当前,传统攻击对图片整体添加全局扰动缺乏语义相关性的考虑,在纯色背景区域的扰动容易被人眼感知。针对此问题,利用神经网络对于轮廓纹理信息偏好的特点,采用边缘检测算法,得到图像的边缘信息图片作为掩码区域,与整体添加的扰动相结合,使生成的对抗样本获得更好的语义性和迁移性,同时不易感知到。实验结果表明:显著减少扰动总量同时,提高了对鲁棒模型的攻击成功率,验证了方法的有效性。最后使用提取的边缘图片数据集对比卷积神经网络(CNN)和Transformer模型的泛化能力。实验发现Transformer模型对边缘图片识别的准确率是CNN模型的3~4倍,从新的角度验证了Transformer与CNN模型依赖特征的差异,同时表明对抗训练提高CNN模型对于轮廓全局特征的依赖。
- 单位