摘要
现代神经网络可能会对来自训练分布之外的输入产生高置信度的预测结果,对机器学习模型构成潜在威胁。检测异常分布的输入是在现实世界中安全部署模型的核心问题。基于能量模型的检测方法,直接利用模型提取的特征向量计算样本的能量分数,而依赖并不重要的特征可能会影响检测的性能。为了解决该问题,提出了一种基于稀疏优化的损失函数。对已经预训练完成的分类模型进行微调,在学习过程中保持模型分类能力的同时,增加正常样本特征的稀疏程度,使得正常样本的能量分数降低,正常样本与异常样本之间的分数差异变大,从而提高检测效果。该方法并未引入异常的辅助数据集,避免了样本之间相关性的影响。在数据集CIFAR-10和CIFAR-100上的实验结果表明,该方法将检测6个异常数据集的平均FPR 95分别降低了15.02%和15.41%。
- 单位