摘要

随着移动互联网的普及,黑色产业成为了一种新的违法途径。黑色产业的猖獗不仅损害了社会利益,同时也影响了正常用户的体验。本文提出了一种基于交叉验证网格寻优随机森林算法的区分黑色产业用户的方法。本文收集的黑产用户数据为某论坛的恶意刷违法消息的用户数据。利用随机森林机器学习数据特征,通过交叉验证以及网格搜索技术完成模型参数寻优,得到训练好的模型。并且比较了其他常见的几种分类算法在识别黑产用户的准确率。线上和线下实验表明,基于随机森林算法的模型在预测区分黑色产业用户上相比较于其他几种算法准确率更高,表现更为稳定。为打击黑色产业积累了宝贵的经验。