摘要
近年来恶意软件不断地发展变化,导致单一检测模型的准确率较低,使用集成学习组合多种模型可以提高检测效果,但集成模型中基学习器的准确性和多样性难以平衡。因此提出一种基于遗传规划的集成模型生成方法,遗传规划可以将特征处理和构建集成模型两个阶段集成到单个程序树中,解决了传统的恶意软件集成检测模型难以平衡个体准确率和多样性的问题。该方法以集成模型的恶意软件检出率作为种群进化依据,保证了基学习器准确性。在构建集成模型时自动选择特征处理方法、分类算法和优化基学习器的超参数,通过输入属性扰动和算法参数扰动增加基学习器的多样性,根据“优胜劣汰”的思想,进化生成具有高准确性和多样性的最优集成模型。在EMBER数据集上验证,结果表明,最优集成模型的检测准确率达到98.88%。进一步的分析表明,该方法生成的模型具有较高的多样性和可解释性。
-
单位武汉科技大学; 智能信息处理与实时工业系统湖北省重点实验室