基于改进TF-IDF的多态蠕虫特征自动提取算法

作者:王方伟; 杨少杰; 赵冬梅; 王长广
来源:华中科技大学学报(自然科学版)科技大学, 2020, 48(02): 79-84.
DOI:10.13245/j.hust.200214

摘要

提出一种基于改进词频-逆文档频率(TF-IDF)的多态蠕虫特征自动提取算法.首先,利用特征哈希方法对不同位置的子串赋予不同的位置权重,且把高维子串向量压缩成低维向量提高效率;其次,引入校验值对传统IDF算法进行修正,减小稀有子串的权重;最后,按权值排序得到子串序列,生成最终蠕虫特征.利用多类多态蠕虫样本对该算法进行测试,并与已有方法进行比较.实验结果表明:该算法在噪声干扰下能准确高效地提取出多态蠕虫特征,准确性和效率均优于已有方法,并可对特征提取进行状态保存,具有良好的可扩展性.