摘要
无数据模型提取攻击是基于攻击者对进行攻击时所需的训练数据信息一无所知的情况下提出的一类机器学习安全问题。针对无数据模型提取攻击在图神经网络领域的研究空缺,提出了分别用图神经网络可解释性方法GNNExplainer和图数据增强方法 GAUG-M优化图节点特征信息和边信息来生成所需图数据,实现最终的图神经网络模型提取。首先,利用GNNExplainer方法对目标模型的响应结果进行可解释性分析得到重要的图节点特征信息;然后,通过对重要的图节点特征进行加权,对非重要图节点特征进行降权,实现对图节点特征信息整体优化;其次,使用图形自动编码器作为边信息预测模块,该模块根据优化后的图节点特征得到节点与节点之间的连接概率;最后,根据概率增加或者删减相应边来优化边信息。实验采用五种图数据集训练的三种图神经网络模型架构作为目标模型进行提取攻击,得到的替代模型达到了73%~87%的节点分类任务准确性和76%~89.2%的与目标模型性能的一致性,验证了方法的有效性。
- 单位