基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究

吴树芳; 杨强; 侯晓舟<sup>*</sup>; 尹萌

摘要

[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题，提高网络敏感信息识别性能，对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确，从而导致识别性能欠佳的问题，提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先，从多源网络资源中爬取敏感种子词，并基于词向量模型Word2Vec获得种子词的敏感语义相关词，构建更为完备、准确的敏感特征。其次，将构建的敏感特征融入引导式主题模型，得到改进后的模型SSI-GuidedLDA。最后，基于SSI-GuidedLDA模型获得待识别信息的主题分布，通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示，与已有方法相比，提出的方法在准确率、召回率和F1值上均有一定提高。

单位
河北大学

收藏分享被引浏览

更新时间：2024-03-15 16:07

基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友