摘要
针对目前DGA(domain generation algorithm)恶意域名检测方法计算量较大、检测精确率不高等问题,提出了DGA恶意域名检测框架。首先对域名的字符统计特征和N-Gram模型特征进行分析,提取出区分度大的域名特征组合;然后利用正常域名和DGA恶意域名数据集训练不同的机器学习模型,如朴素贝叶斯、多层感知器和XGBoost (extreme gradient boosting)模型,再用训练好的模型检测恶意域名。实验结果表明,采用域名的N-Gram模型特征的精确率和召回率都优于统计特征,多层感知器的精确率较高,误报率较低,其AUC(area under curve)值高于朴素贝叶斯和XGBoost模型。
- 单位