摘要

传统的恶意代码检测技术依赖于大量的已标记样本,然而新出现的恶意代码的标记数量往往较少,使得传统的机器学习检测方法难以取得较好的检测效果。针对该问题,研究了一种改进主动学习的恶意代码检测算法,提出了基于最大距离(Maximum Distance)的样本选择策略和基于最小估计风险(Minimum Risk Estimate)的样本标记策略,实现了已标记样本较少情况下的恶意代码检测。实验结果显示,相比于未使用主动学习的方法,该算法的总体检测效果更好,在已标记样本数量占比为10%的情况下,其比随机选择策略的主动学习的效果更好,在时间性能上比人工标记策略的主动学习效果更好。