摘要

针对地平线扫描数据的多源异构特点,为了解决所出现的数据重复和数据噪声问题,选择基于可变长度数据分块的重复数据检测方法和基于TF-IDF的噪声数据检测方法,检测和删除重复数据和噪声数据。采用SOA架构的设计思想,使用Java编程语言设计地平线扫描数据消重去噪系统的开发。使用该系统进行数据预处理,能够有效提升高质量数据比例,为后续产业分析、技术识别做好数据层面的支撑。