摘要
详细分析了数据沙箱模式下,深度学习数据窃取攻击的威胁模型,量化评估了数据处理阶段和模型训练阶段攻击的危害程度和鉴别特征。针对数据处理阶段的攻击,提出基于模型剪枝的数据泄露防御方法,在保证原模型可用性的前提下减少数据泄露量;针对模型训练阶段的攻击,提出基于模型参数分析的攻击检测方法,从而拦截恶意模型防止数据泄露。这2种防御方法不需要修改或加密数据,也不需要人工分析深度学习模型训练代码,能够更好地应用于数据沙箱模式下数据窃取防御。实验评估显示,基于模型剪枝的防御方法最高能够减少73%的数据泄露,基于模型参数分析的检测方法能够有效识别95%以上的攻击行为。
-
单位鹏城实验室; 哈尔滨工业大学(深圳); 北京邮电大学