摘要

一种基于生成对抗网络的模型安全性检测方法,采用的具体步骤为:步骤一:设定行为相似度安全阈值δ;步骤二:构建初始化生成器G和替代模型D;步骤三:进行逐轮迭代,计算替代模型D和被测模型T之间的行为相似度μ,达到设定值后进入下一步;步骤四:评估被测模型T的安全性。本发明所使用的基于GAN的模型窃取方法适用于无训练数据的黑盒攻击场景,通过生成类别较为均衡的人造数据,快速提升替代模型与被测模型的行为相似度。根据实验结果,本发明具有适应性强,效率高等特点,可以客观地反映被测模型访问接口暴露后,遭受模型窃取攻击的风险。