摘要
人工智能对抗环境下,深度神经网络对于对抗样本有明显的脆弱性,为提高对抗环境下的模型鲁棒性提出一种深度神经网络模型鲁棒性优化方法 AdvRob。首先将目标模型改造为特征金字塔结构,然后利用潜在特征先验知识生成攻击力更强的对抗样本进行对抗训练。在MNIST和CIFAR-10数据集上进行的实验表明,利用潜在特征生成的对抗样本相较于AdvGAN方法攻击成功率高,更具多样性且可迁移性强;在高扰动下,MNIST数据集上AdvRob模型相比原模型对FGSM和JSMA攻击的防御能力提升了至少4倍,对PGD、BIM、C&W攻击的防御能力提升了至少10倍;CIFAR-10数据集上AdvRob模型对FGSM、PGD、C&W、BIM和JSMA攻击的防御能力相较于原模型提升了至少5倍,防御效果明显。在SVHN数据集上,与FGSM对抗训练、PGD对抗训练、防御性蒸馏和增加外部模块的模型鲁棒性优化方法相比,AdvRob方法对白盒攻击的防御效果最显著。为对抗环境下DNN模型提供了一个高效的鲁棒性优化方法。
- 单位