摘要
针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力。实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性。
-
单位江苏警官学院; 南京市公安局