摘要

基于大数据挖掘的数据样本多样性与实时性需求,提出了基于分布式计算框架的大数据机器学习系统,对目前算法迭代计算的过程进行分析,以模型向量该变量使迭代的过程划分成为微调与粗调不同阶段,并且还能够发现在部分阶段中大部分样本对于计算结果并没有太大的影响,所以能够在迭代过程中直接使用上次迭代计算结果,降低计算量,使计算效率得到提高。通过实验结果表示,算法基于分布式集群环境中能够降低模型训练计算量,并且提高训练模型精准度,使大数据挖掘实时性得到提高。