摘要

为了解决传统近邻排序算法(SNM)在中文重复值数据清洗中的不足,提出基于中文分词和同义词检查的重复值清洗算法。传统SNM算法主要适用于英文,英文和中文存在以下两种明显差异:英文语义和时态基于单词;中文语义基于词语,时态基于语义。以上两种差异造成了英文重复值清洗的算法SNM不能很好地应用于中文重复值清洗中。算法的基本思路是:引入编辑距离来计算近似度;采用中文分词和同义词检查的方式优化编辑距离相似度算法,改进后的算法可以对中文语句或者字段进行有效重复值清洗的工作。通过对供应商商品库存数据集的实验,结果证明该算法不但可以提高效率,而且能有效地清洗重复字段,很好地实现了中文数据清洗。