在Spark集群环境下,通过Sparklyr调用MLib中的并行逻辑回归算法对大规模抵押贷款数据的训练集进行监督学习,使用R语言建立一个预测客户是否会如期归还贷款的逻辑回归分类模型。为了研究该模型的可信性以及获取效率,本文补充了伪判定系数、分类评价指标、测试集性能几个指标对模型可信性进行评价,并判定了模型的可信性。在获得了可信模型的基础上,实验结果表明:当数据量增加到一定阈值后,在集群环境下使用并行的算法获得逻辑回归分类模型的速度要优于对应的串行算法。