摘要

在海量暗网网页中筛选敏感主题内容对执法部门具有重要意义。通过对Freenet等暗网网页文本特点和类别进行深入分析,提出基于TextCNN的暗网网页主题分类模型。模型根据暗网网页非标准化的语言特点进行数据预处理;使用预训练的词向量获得网页内容的表示,通过不同大小的卷积核进行卷积操作获得特征图像,使用最大池化函数获得最终的特征向量;对卷积网络进行正则化处理,使用softmax函数预测类别概率。实验结果表明,采用该方法精确率为86.01%,召回率为78.97%, Macro-F1值为82.33%,高于机器学习模型,能够有效解决暗网网页分类问题。