摘要

针对现代大规模数据线性回归在单机计算时间过长的问题,本文设计并实现了一种基于MapReduce架构的并行多元线性回归算法。在用普通PC搭建的Hadoop集群上的研究实验结果表明,基于MapReduce架构的多元线性回归算法在处理大规模数据时,与单机的多元线性回归算法相比有较大的速度提升。