摘要
报文聚类是报文格式推断的基础,现有的报文聚类方法大多以报文的全局相似性为聚类的标准,这类聚类方法的准确率往往不高,进而影响后续报文格式提取的准确率。针对这一问题,文中提出了一种基于粗糙集聚类的报文格式推断方法,该方法包括预处理、基于粗糙集的聚类、特征词提取和报文格式推断4个阶段。首先,通过数据预处理分离出目标报文中的业务类报文和控制类报文;其次,按照粗糙集理论中基于属性划分样本的方法对报文的统计特征进行聚类,这种聚类方法能够准确获取报文序列的局部特征,能够达到较好的聚类效果;然后,根据长度、频率和位置特征来提取协议特征词;最后,将协议特征词分为必选字段和可选字段,并用它们来描述报文格式。实验结果表明,该方法能够准确地获取协议的报文格式。
-
单位中国人民解放军陆军工程大学