摘要

神经网络模型逆向攻击的目的是恢复部署在推理终端的网络结构与权重,它不仅是重要的知识产权,模型中的参数信息还会带来如对抗样本攻击的安全威胁.在保密模型结构设置中,标准的保护措施,如阻止二进制回读、阻止JTAG访问、代码混淆等手段能够防止模型信息泄露,导致不能有效逆向神经网络模型.通过研究发现,在迁移学习的背景下,应用开发中部署的网络多是由已存在的知名网络再训练而生成,因此不同的时间消耗序列能够作为特征,用来确定神经网络模型的具体结构.已有基于侧信道分析的逆向方法都是面向特定神经网络结构,本文提出的逆向方法可以面向所有神经网络模型.通过分析卷积神经网络中卷积层、池化层以及全连接层中的时间消耗,提出一种基于时间的模型逆向攻击.该方法需要向目标神经网络结构提供随机输入,测得运行时各层时间消耗,将模型逆向问题转化为模型分类问题.本文对Vgg系列、ResNet系列等神经网络结构进行实测实验,使用不同数量的时间特征进行训练与预测,所选取的指标包括精确率、召回率、F1值等,随着选取的时间特征层数越多,分类器预测的效果越好.实验结果表明当使用100层运算层的时间特征时上述指标均可达到98.9%,本文方法能够有效区分出选取的11种神经网络结构.