摘要

针对现有网络流量指纹自动生成难度大、粒度粗及匹配阶段内存消耗大等问题,提出了细粒度网络流量分类架构及其优化。在线下,根据特定字符片段在对应流量中保持不变,且代表流量功能的有效字符片段比随机噪声片段出现的频率高这一特性,寻找流量中字符片段出现频率和长度达到一定阈值的有效片段,并将其作为备选指纹规则,通过交并、合并、指纹提纯操作获取该流量对应的指纹。在线上字符串匹配时,根据k均值分类思想重新定义距离,并利用异构位分割状态机的启发式算法对指纹中的字符串进行重新组织,对内存使用进行优化。实验结果表明:所提算法能够在未知网络流量协议格式的情况下自动生成细粒度的流量指纹,平均识别准确率为93.65%,对噪声不敏感;在匹配时若将原所有指纹字符片段重新优化组织,当指纹规则数量在4 000以上时,可节约近50%的内存需求。