摘要
针对加密流量特征稀疏与难以通过单一方法进行表征的问题,文章提出一种基于特征回放的集成学习方法,包括预特征提取、特征回放、集成学习三个阶段。首先,收集报文的到达平均时间间隔、最大长度等常用统计信息作为数据集的原始特征,其次,训练多个预分类器并将这些分类器的预测结果作为新的特征加入数据集中,最后,借鉴Stacked Generalization的集成思想训练最终的决策分类器。利用Cyberflood构建多种类别的加密流量数据并进行相关实验,结果表明本文方法在准确率上比已有分类方法提高了近5%。
- 单位