摘要

为了提高网络流量分类模型的效率、降低模型复杂度,提出了一种基于随机森林和改进卷积神经网络的分类方法。首先,利用随机森林评估了网络流量各个特征的重要性,并根据重要性排序进行特征选择;其次,采用AdamW优化器和三角循环学习率优化了卷积神经网络分类模型;最后,将该模型搭建在Spark集群上实现模型训练的并行化。采用循环幅度恒定的三角循环学习率,选择1 024、400、256和100个最重要的特征作为输入的实验结果表明,模型的准确率分别提高到97.68%、95.84%、95.03%和94.22%。选择256个最重要的特征,采用不同学习率的实验结果表明,循环幅度减半的三角循环学习率的效果最佳,模型的准确率提高到95.25%,模型训练时间减少近1/2。