摘要

针对传统环境下运行的推荐算法预测精度不高的问题,提出一种基于矩阵分解和随机森林算法的推荐模型。提出的基于数据分割策略和新的学习过程的分布式推荐模型是在Apache Spark上设计的。通过数据分区、模型训练和偏好预测三个步骤处理大规模数据,提高预测质量,解决数据稀疏问题。为了提高模型在大数据环境下的性能,采用基于矩阵分解(Matrix Factorization, MF)和随机森林(Random Forests, RF)混合的新颖学习过程,从而显著加快分布式训练的速度。实验结果表明,相对于其他算法,该算法在性能指标上具有明显的优势。