摘要

为了解决恶意软件分类准确率不高的问题,提出了一种基于N-Gram静态分析技术的恶意软件分类方法。首先,通过N-Gram方法在恶意软件样本中提取长度为2的字节序列;其次,根据提取的特征利用KNN、逻辑回归、随机森林、XGBoost训练基于机器学习的恶意软件分类模型;然后,使用混淆矩阵和对数损失函数对恶意软件分类模型进行评价;最后,将恶意软件分类模型在Kaggle恶意软件数据集中进行训练和测试。实验结果表明,XGBoost和随机森林的恶意软件分类模型准确率分别达到了98.43%和97.93%,Log Loss值分别为0.022 240和0.026 946。与已有方法相比,通过N-Gram进行特征提取的方法可以更准确地对恶意软件进行分类,保护计算机系统免受恶意软件的攻击。