摘要

针对云环境下数据安全和数据集敏感元素无法自动识别、自动动态分级的问题,提出一种面向文档级别的敏感元素自动化识别与动态分级算法,利用大数据语义识别技术,对各类文档的数据价值元素进行自动化提取,采用向量化处理的方式得到文档的特征向量,结合特征向量相似度量化文档的敏感度从而实现文档的自动分类分级。实验表明,该算法能够比较准确地识别并分类任意规模、非结构化的文档敏感元素,该算法无须提前知道文档敏感元素的特征,敏感特征字典,兼顾了平台存储安全的效率和安全性。

  • 单位
    中国电信股份有限公司