摘要
提出一种基于改进词频-逆文档频率(TF-IDF)的多态蠕虫特征自动提取算法.首先,利用特征哈希方法对不同位置的子串赋予不同的位置权重,且把高维子串向量压缩成低维向量提高效率;其次,引入校验值对传统IDF算法进行修正,减小稀有子串的权重;最后,按权值排序得到子串序列,生成最终蠕虫特征.利用多类多态蠕虫样本对该算法进行测试,并与已有方法进行比较.实验结果表明:该算法在噪声干扰下能准确高效地提取出多态蠕虫特征,准确性和效率均优于已有方法,并可对特征提取进行状态保存,具有良好的可扩展性.
- 单位