摘要

机器学习任务中通常将真实数据直接作为训练集会造成隐私泄露的风险,针对这一问题,本文以研究序列对抗网络模型(Seq GAN,Sequence Generative adversarial networks)结合差分隐私(DP,Differential privacy)来保护真实数据的方法上,提出了基于差分隐私保护的仿真数据生成方案。首先,对获取的数据采用满足差分隐私的加噪策略获得噪声数据,从源头防范原始数据在生成模型训练过程中的隐私风险;其次,提出了一种基于GRU的改进SeqGAN模型:GRU-SeqGAN,来提高生成的噪声仿真数据可用性;最后,以高校学业预警为背景来生成安全的学生仿真数据作为完成下游任务的训练集。实验证明,仿真数据原理上保障了隐私安全的同时,GRUSeqGAN生成的噪声仿真数据相比SeqGAN可用性更高,模型训练效率更高。