摘要
提出了一种基于差分隐私的深度伪造指纹检测模型版权保护算法,在不削弱原始任务性能的同时,实现了深度伪造指纹检测模型版权的主动保护和被动验证。在原始任务训练时,通过添加噪声以引入随机性,利用差分隐私算法的期望稳定性进行分类决策,以削弱对噪声的敏感。在被动验证中,利用FGSM生成对抗样本,通过微调决策边界以建立后门,将后门映射关系作为植入水印实现被动验证。为了解决多后门造成的版权混淆,设计了一种水印验证框架,对触发后门加盖时间戳,借助时间顺序来鉴别版权。在主动保护中,为了给用户提供分等级的服务,通过概率选择策略冻结任务中的关键性神经元,设计访问权限实现神经元的解冻,以获得原始任务的使用权。实验结果表明,不同模型性能下的后门验证依然有效,嵌入的后门对模型修改表现出稳健性。此外,所提算法不但能抵挡攻击者策反合法用户实施的合谋攻击,而且能抵挡模型修改发动的微调、压缩等攻击。
- 单位