摘要
深度学习在计算机视觉领域的许多成果已广泛应用于现实生活。然而,对抗样本能够让深度学习模型以高置信度产生误判,进而造成严重的安全后果,同时对抗样本检测方法普遍存在计算成本高或依赖样本统计特性等问题。为此,提出一种基于预测不一致的对抗样本检测方法。若将对抗扰动视作不必要的特征,通过图像降噪或压缩技术来压缩样本的特征空间,从而减少对抗扰动。通常压缩特征空间前后的正常样本在深度学习模型中的分类结果差别较小,而相同处理前后对抗样本的分类结果差别较大。通过测量深度学习模型对原输入的预测结果与压缩特征空间后输入预测结果之间的距离来检测对抗攻击,若其大于阈值,则该输入具有对抗性。该检测方法的训练集选取与对抗样本无关,而且无须对原深度学习模型进行调整。实验结果表明,该方法在保证较低假阳性率的同时,能够对快速梯度符号法(FGSM)、JSMA和C&W等经典攻击进行有效检测,在MNIST和CIFAR-10数据集上的平均检测率高达99.77%和87.90%。
-
单位信息工程大学