摘要

针对现有恶意域名检测方法存在检测精度不高和检测范围局限等问题,提出一种基于Ngram+Bi-GRU的多家族恶意域名检测算法。首先,利用Ngram模型对去除顶级域名的剩余域名级进行分割,获取到包含上下文语义信息的多个域名字符片段序列,并将域名字符片段序列转换成向量;然后,利用双向门控循环型网络(Bi-Directional Gated Recurrent Unit, Bi-GRU)自动学习域名向量的特征;最后,利用Softmax分类器实现合法域名与恶意域名的分类。通过在360Netlab和Malware Domain List等多家族恶意域名集上进行测试,算法运行结果表明,本文模型可对19种家族恶意域名保持检测精度在93%以上,平均检测精度为94.92%,并与当前主流的基于域名字符特征的恶意域名检测算法相比,本文模型在保持检测精度较高的基础上具有更广的检测范围。