摘要

<正>在数据爆炸时代,数据安全问题引发广泛的关注。数据安全的核心在于发现并检测到敏感数据,进一步采取脱敏、加密等一系列保护操作,防止或阻断数据泄露。文档作为一种主要的非结构化数据形式,提取其中的敏感内容信息、度量文本内容间的相似性是数据管理关键。由此,模仿生物指纹的特性,利用TF-IDF特征提取方法和simHash指纹算法,生成文本内容指纹。通过指纹快速度量文本内容间的相似度,并应用在数据安全管控过程中,根据匹配预设的敏感内容指纹库来发现管控对象。