摘要
现有的物联网设备流量分类方案多依赖完整的流或流的前几个数据包。依赖完整的流会使流量数据增多,从而增加计算复杂度与存储资源的消耗,但物联网设备的存储空间与CPU性能都十分有限;而依赖流的前几个数据包,若其部分数据包丢失就会导致分类效果变差。针对上述问题,提出一种基于滑动时间窗口的随机森林物联网设备流量分类算法,利用物联网流量信息来表征各种设备的属性。首先,基于物联网设备流量时间依赖性的特点,利用滑动时间窗口将流划分为多个时间周期为T的子流;然后,基于物联网设备流量的加密特性,从子流中提取流信息与流头部的数据包信息建立特征向量;最后,基于随机森林随机抽样和随机选特征的特性构建分类模型,以增强模型的泛化能力,进一步提高分类性能。在公开数据集UNSW上的实验结果表明,该算法的分类准确率为96.23%、精确率为94.8%、召回率为91.47%、F1值为93%,具有较好的分类效果。
-
单位浙江工商大学; 电子工程学院