摘要

本文首先使用N-Gram模型和TF-IDF算法对恶意代码数据集进行特征提取,再使用PCA等方法进行数据约简;然后分别使用LogisticRegression、KNN、SVM及MLP等9种有监督学习的算法对恶意代码特征数据进行训练和分类预测;最后使用混淆矩阵对模型输出结果进行评估,并将9种算法的分类结果进行对比。实验结果证明,本文模型采用的9种有监督学习算法中LogisticRegression、SVM、MLP等算法等取得良好的效果,有效提高了恶意程序自动分类的识别率,加强了网络安全。