钓鱼网站的主要手段是采用群发垃圾文件,欺骗用户在钓鱼网站URL地址,登陆并输入个人机密信息的一种攻击手段。本文通过分析钓鱼网站URL地址的结构和词汇特征,对出现异常的钓鱼网站URL进行预测。将钓鱼网站URL地址中抽取的结构特征,词汇特征等,采用数据挖掘的方法进行预测。本文使用四种分类算法,决策树、随机森林、KNN、SVM算法对数据进行分类预测。