摘要
为了更好地理解深度神经网络(DNN,deep neural network)在应用过程中出现的决策依据未知以及容易受到对抗攻击等安全问题,模型可解释性受到广泛关注。虽然越来越多的学者针对传统深度神经网络的可解释性进行了研究,但对可逆神经网络的运行机制和可解释性的探索还存在不足,且现有针对传统深度神经网络的解释方法不适用于可逆神经网络,存在噪声大、梯度饱和等问题。因此,提出一种针对可逆神经网络的可视化解释方法,其基于类激活映射机制,利用可逆神经网络的可逆特性探索特征图与输入图像之间的区域对应关系,使得区域特征图的分类权重可映射到输入图像的对应区域,得到输入图像每个区域对模型决策的重要程度,从而生成模型决策依据。在通用数据集上,将所提方法与其他解释方法进行实验比较,所提方法取得了更集中的视觉效果,在识别任务中,相较于次优方法平均下降(AD,average drop)指标提升7.80%,平均上升(AI,average increase)指标提升6.05%,热值最大点的定位水平达到82.00%,同时,所提方法可以对传统深度神经网络进行解释且其良好的扩展性可以提高其他方法对可逆神经网络的解释性能。另外,在对抗攻击解析实验中发现,对抗攻击使得模型的决策依据发生改变,体现在模型的关注区域发生错位,这有助于探究对抗攻击的运行机制。
- 单位