摘要

随着深度学习模型的广泛使用,在更大程度上使人们相信模型的决策成为有待解决的问题,复杂难以解释的黑盒模型阻碍了算法在实际场景中部署。LIME作为最流行的局部解释方法,生成的扰动数据却具有不稳定性,导致最终的解释产生偏差。针对上述问题,提出一种基于主动学习和二次有理核的模型无关局部解释方法ActiveLIME,使得局部解释模型更加忠于原始分类器。ActiveLIME生成扰动数据后,通过主动学习的查询策略对扰动数据进行采样,筛选不确定性高的扰动集训练,使用迭代过程中准确度最高的局部模型对感兴趣实例生成解释。并且针对容易陷入局部过拟合的高维稀疏样本,在模型损失函数中引入二次有理核减少过拟合。实验表明所提出的ActiveLIME方法具有比传统局部解释方法更优秀的局部保真度和解释质量。