摘要
文章首先以文献计量分析的方式对国内外数据质量相关研究进行了全面系统地梳理,归纳出6类数据质量问题:数据冗余、数据缺失、数据异常、数据错误、数据冲突和数据稀疏;以一个公交大数据平台为例,针对GPS数据异常和进出站数据缺失,着重研究了基于启发式噪声过滤清洗GPS异常的方法(HNFC)以及基于多源数据融合的公交进出站信息补全的清洗方法(MDFC)。实验结果表明,HNFC可过滤掉2.48%的范围异常,修正2.25%的跳跃异常;而MDFC可以保证进出站时刻的平均误差稳定在1.0%以下。研究成果可为公交行业数据质量提升提供指导和借鉴。
- 单位