摘要

目前基于机器学习的恶意软件检测方法其主要思路是通过静态分析和动态分析的方法提取特征,再选择机器学习分类器进行分类模型的训练.该方法的准确性取决于人工选择的特征质量,在选择的过程中会丢失有价值的特征信息,影响分类效果.针对这个问题,提出了一种基于汇编指令词向量特征的恶意软件检测模型.首先利用反汇编工具提取恶意软件的汇编指令,制定规则替换部分指令,减少复杂度.然后,通过自然语言处理中的词向量模型学习指令的相似性,得到指令的向量表示.最后,使用卷积神经网络和双向长短期记忆的混合模型对可执行文件进行分类.上述方法有效解决了人工特征选择中特征质量不佳、重要信息丢失等问题.对数据集上进行的多组对比实验的结果表明,该方法达到了98.8%的分类准确率和98.7%的F1值,明显优于对比算法.