摘要

针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。

  • 单位
    国网电力科学研究院有限公司; 南京理工大学; 国家电网有限公司