摘要

在未知二进制协议的格式推断过程中,常常引入大量的先验知识,实验操作复杂且准确率不高。为此,文中提出了一种人为设定较少参数、操作简单、准确率较高的方法进行未知二进制协议格式推断,将预处理的协议数据进行层次聚类,以CH(Calinski-Harabasz)系数为评价标准获得最优聚类,通过对聚类所得结果进行改进的序列对比以获得带有间隔的协议数据序列,统计合并连续间隔,以分析协议格式。实验结果表明,提出的二进制协议格式推断方法能够推断出未知二进制协议80%以上的字段间隔,相较于AutoReEngine算法中的格式推断方法,所提方法的F1-Measure值整体上提升了约30%。

  • 单位
    中国人民解放军陆军工程大学