摘要
传统模型在识别加密流量方面通常存在特征提取困难和没有考虑到样本类别不平衡的问题,针对此问题,提出了一种在类别不平衡条件下的基于条件变分自编码器的加密流量识别模型。首先,通过SMOTE算法平衡原始数据集,解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题。其次,提取数据流前n个字节,并使用条件变分自动编码器模型自动提取分类特征隐层变量Z。最后,把m维的隐层变量Z输入基于遗传算法改进的随机森林分类器进行分类评估。实验表明,较现有的加密识别模型,所提方法不仅具有较快的收敛速度,而且在精确率、召回率和F1-measure评价指标上分别有较大的提高。
- 单位