摘要
大数据是一种海量、高增长率、多元化的信息资产,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。在大数据的背景下,为了消除异常值和缺失数据的影响,本文提出一种协变量随机缺失下大规模Huber回归模型的分布式计算方法。首先对随机缺失的协变量采用逆概率加权的方法进行处理,然后将大数据进行分布式存储,构造一个交互有效的替代损失函数,将替代损失函数的优化问题与ADMM算法相结合对未知参数进行估计。模拟和实证研究表明:在有限次主从机器之间交互次数下,提出的分布式计算方法得到的估计误差递减并趋于全局最优方法得到的估计误差,且比基于平均的OneShot方法的估计误差小。
-
单位中南财经政法大学; 数学学院