摘要

重复数据和相似数据的处理是数据清洗的一项重要内容。针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化。经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗。