摘要
Tor流量分析技术为打击利用Tor匿名通信工具从事的暗网犯罪活动提供了技术支撑,但目前存在数据难于收集、数据集不平衡、模型抗概念漂移能力差等问题。首先将原始Tor PACP包进行分割、去噪处理并提取特征序列。然后,将一维序列转化为可视化灰度图并输入改进多尺寸深度卷积生成对抗网络生成Tor流量样本以平衡数据集。最后,利用堆叠降噪自动编码器进行序列降维并将特征输入在线序列极限学习机实现Tor匿名流量的在线流识别。实验结果表明,改进多尺寸生成对抗网络生成数据与原始数据信息散度、欧氏距离等量化指标低于0.13,平衡数据集可提高模型识别率约2.8个百分点。堆叠去噪自编码器能够实现数据降维且重构损失MSE低于0.003,在线序列极限学习机模型识别率可达95.7%。利用深度卷积生成对抗网络进行数据增强能够提高数据质量并提升分类模型表现。结合堆叠去噪自编码器和在线序列极限学习机的流量分析模型采用数据流处理模式代替传统的批处理模式有效地缓解了概念漂移问题。
- 单位