摘要

针对农业机械大数据平台中,已有数据清洗算法不适用于大规模、多源异构、高维度和强时空相关实时数据的问题,分析了复杂田间环境下农机作业数据异常来源及特征,研究了异常数据检测及修正技术,提出一种基于滑动窗口机制的农机作业数据在线清洗方法。该方法基于方差约束原则识别异常数据,基于最小变动原则生成候选修正数据,基于数据时间相关性通过AR、ARX模型迭代优化得到最终修复值,依托Flink分布式计算平台,从而适应农机数据吞吐量大、并发度高的特点。基于某省农机作业数据对算法进行了有效性验证,结果表明,在数据规模达到1×105条、数据异常率为5%的情况下,算法异常识别率达到0.94,且与已有清洗算法相比均方根误差更小。基于Box-Behnken方法设计试验,通过响应面分析得到回归模型,分析算法参数对均方根误差和运行时间的影响。基于二进制编码的混合遗传算法对参数进行优化,优化后的参数组合可使算法均方根误差达到0.16、运行时间达到0.13 s。该数据清洗方法能够为农机大数据平台的实时处理提供高质量数据支撑。