摘要

目前诈骗网站检测识别多基于网站域名、URL等文本特征以及网站源码特征,缺乏对诈骗网站生存、传播行为和网页结构特征的分析利用。基于诈骗网站存活周期短、域名劫持、社交分享这三类特征,探索研究了三种高业务价值域名数据集提取算法,旨在提高集中发现诈骗网站域名的效率。同时利用诈骗网站网页结构(快照)上的相似性特征,结合目前较为火热的卷积神经网络,对相关特征进行提取和检测。设计并实现了一套基于高价值域名数据的诈骗网站识别深度学习系统。实验结果表明,本套系统能够有效提取高价值域名数据,具备较强的诈骗网站识别能力。