摘要
高速公路收费数据中存在的异常数据会严重影响后续数据统计与分析的准确性。针对此类多维数据的异常检测和修复问题,本文分别提出了基于相似系数和SSC(Sum of Similar Coefficients)的异常检测算法以及基于XGBoost (eXtreme Gradient Boosting)的多维数据预测修复方法。结果表明基于SSC的异常检测算法能够考虑到数据维度之间的相关性,准确地对多维数据异常检测。同时XGBoost多元预测算法和仅针对单维数据的改进拉格朗日算法相比,R2从0.9166提升至0.9856。提出的算法是有效而准确的,能够为公路管理部门数据分析提供高质量的数据支持。
- 单位