摘要

为了获得更简洁、精确和有价值的大数据信息,提出一种融合速度约束和最大似然估计的大数据清洗算法。首先构建多项式插值函数,基于多普勒处理确定数据理论性融合的具体误差数值水平,其次利用Server消息返回机制,并借助多叉树计算流,建立稳定的大数据清洗框架,最后按需统计大数据信息的缺失量实值,为重复清洗量计算提供数值参考条件。将MapReduce并行算法、大数据清洗算法应用于同一种网络开源平台中,引入缺失数据系统对信息文件进行排列,分析各项实验指标的具体数值,结果验证了提出算法具有良好的数据清洗效果。

  • 单位
    金肯职业技术学院