摘要
本发明公开了一种基于分类置换的中文姓名数据脱敏方法,包括以下步骤:1)对中文人名语料库中的数据按照姓氏和名字分成两类数据,并将其转换为向量形式;2)将两类数据及其向量形式存储到数据库中;3)获取待脱敏姓名数据;4)将待脱敏姓名数据的姓氏及名字分别转换为向量形式;5)获取数据库中与待脱敏姓名的姓氏向量相似度最大的K个姓氏向量;6)在K个姓氏向量中随机选择一个对待脱敏姓名的姓氏进行置换;7)获取数据库中与待脱敏姓名的名字向量相似度最大的N个名字向量;8)在N个名字向量中随机选择一个对待脱敏姓名的名字进行置换,得脱敏后的数据,该方法能够使得名字脱敏后保留姓名本身具有的特点。
- 单位