摘要

移动互联网流量分类/聚类是有效管理网络流量的重要基础,但是已有文献采集的移动互联网流量数据来源不同、流量数据标签级别不同、描述流量数据的特征集合不同,所获得的实验结果无法进行直接比较。借助于MobileGT系统采集移动App产生的网络流量数据,从两种粒度标记流量数据(App级别和功能级别),以单向流和双向流分别获取不同的特征集合,进而综合性实验分析各种机器学习算法在不同标记粒度和不同特征集合描述的移动互联网流量数据上的分类/聚类性能。实验结果表明,在流统计特征方面,基于单向流的统计特征更优;在分类算法方面,随机森林和Ada Boost算法更优;在聚类算法方面,K-均值方法更优。