摘要
针对移动应用流量监控及行为分析等需要,为有效识别移动网络流量所属的应用,提出一种超文本传输协议(HTTP)流结构化特征提取方法。采取一款自研的基于虚拟专用网络(VPN)的流量采集工具获取研究数据,该工具能够精确标识每一条数据流归属的应用。在特征提取阶段,不预先设计特征构成,通过流聚类、获取最长公共子序列、字符替换得到应用HTTP流的结构化特征。从42种应用的117 772条HTTP流中提取特征,并对测试集的50 387条HTTP流进行识别,所提方法的平均准确率达99%,平均查全率为90. 63%,单个应用最大误报率为0. 52%。实验结果表明,该结构化特征提取方法能够有效识别移动应用的流量。
- 单位