摘要

针对主流分类检测方法识别恶意代码面临的训练数据受限和种类均衡性不足问题,提出一种基于图像矢量结合生成对抗网络模型的恶意代码数据增强方法。将图像处理技术与WGAN-GP深度学习模型相结合,将恶意代码数据可视化为图像,通过缩放处理使恶意代码文件在长度不一致的情况下能够高概率保留全部隐含特征;使用WGAN-GP训练学习隐含的特征,生成新的数据;采用图像生成质量评价指标SSIM以及基础分类器准确率验证生成数据的相似性和有效性。实验结果表明,该方法可以有效学习样本分布规律,生成充足均衡且相似性较好的数据,满足后续研究的需要。