摘要

随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。