随着网络应用的发展普及,网络流量及网络规模迅速增大,产生的海量数据使得对网络应用流量的安全管理工作愈发艰难。传统的基于端口和载荷的应用流识别方法已经不能满足识别的精度要求。本文针对网络大量应用流识别问题,通过对现有少量标识数据的研究,采用半监督学习的方法提出并实现了无监督数据标识聚类,还采用有标识的方法进行辅助识别,可以为后续的监督学习提供大量的训练数据。