摘要
深度学习模型的训练成本高,但窃取成本低,容易被复制并扩散。模型的版权拥有者可以利用后门等方式在模型中嵌入水印,通过验证水印来证明模型版权。根据水印嵌入阶段的不同,又可分为前向模型水印和后向模型水印,前向模型水印在模型训练之初就嵌入水印,而后向模型水印的嵌入发生在模型原始任务训练好之后,计算量小、更为灵活。但是已有的后向模型水印方法鲁棒性较弱,不能抵抗微调、剪枝等水印擦除攻击。分析了后向模型水印鲁棒性弱于前向模型水印的原因,在此基础上提出一种通用的鲁棒后向模型水印方法,在水印嵌入时引入对模型中间层特征和模型输出的约束,减小水印任务对原始任务的影响,增强后向模型水印的鲁棒性。在CIFAR-10 、CALTECH-101、GTSRB等数据集上的实验表明,该方法能有效提升后向模型水印在微调攻击下的鲁棒性,其中CIFAR-10数据集实验中的最优约束设置与后向模型水印基线相比,水印验证成功率平均提升了24.2个百分点。此方法也提升了后向模型水印在剪枝等攻击下的鲁棒性。
- 单位