摘要

[目的/意义]针对现有网民网站访问分析方法存在样本规则库更新,对新网站的访问难以提供识别分析等问题,使用BI-LSTM、BI-LSTM+Attention算法构建网站识别模型,实现网民访问网站的意图和安全性识别预测。[方法/过程]使用BI-LSTM对网站进行多结构分析识别,根据网站链接的结构特性提取出域名信息和参数信息作为主要分析数据,爬虫获取部分知名域名信息构建语料库,使用Word2vec来得到网站链接中域名的词向量特征作为第一种网站结构识别检测,TF-IDF结合N-Gram算法来得到网站链接中参数的特征向量作为第二种网站结构识别检测,构建网站识别模型。[结果/结论]多结构网民网站分析模型的识别分析方法适合各年龄段的网民和各阶段水平信息能力的用户进行识别分析,深度学习与网站结构结合的识别检测方法在上网过程的检测识别中具有维护健康上网环境的作用。