摘要

深度学习神经网络(DNN)容易受到对抗性示例的攻击,对抗性示例可由无法察觉的干扰产生。目前已经提出了一系列防御技术,以提高DNN对此类示例攻击的鲁棒性,其中对抗训练已被证明是最有效的。对抗训练通常被公式化为最小—最大优化问题,其内在最大化可用于生成对抗示例。但是,存在一个简单但容易被忽略的事实,即对抗性示例仅在正确分类的正常示例中定义,但某些正常示例在训练过程中会被误分类,并且会被忽略。在本文中,研究了被误分类的示例和被正确分类的示例在对抗训练中对DNN模型最终鲁棒性的独特影响。具体来说,发现被误分类示例确实对DNN最终的鲁棒性有重大影响,对误分类的示例,使用不同的最大化技术对DNN最终鲁棒性的影响可以忽略不计,而不同的最小化技术则至关重要。基于以上发现,提出了一种新颖的对抗防御算法(novel adversarial defense algorithm, NADA),该算法可明确区分训练过程中被误分类的示例和被正确分类的示例。实验结果表明,NADA可以显着提高DNN模型的鲁棒性。