摘要
针对目前恶意URL检测模型中泛化性不够好,准确率不够高的问题,提出一种基于字符嵌入编码的FTCNN-LSTM的恶意URL多分类检测方法。该方法对URL中的每一个字符进行向量化编码,并通过批规范化和定向Dropout对神经网络进行剪枝,并使用Focal Loss损失函数解决数据集不平衡的问题。实验结果显示,与机器学习训练的模型相比,该方法在多分类上召回率提升了1.73%。该模型在ISCX-URL2016和malicious_phish URL数据集上的多分类平均预测结果均能达到98.63%以上,具有较好的泛化能力。
- 单位