摘要
为解决海量数据背景下推荐系统的可扩展性问题和评分空间上的数据稀疏性问题,研究Spark平台下基于格拉斯曼秩1更新子空间估计法(GROUSE)和用户聚类的改进协同过滤推荐算法(CF-GUC)。通过改造GROUSE算法对评分矩阵进行填充;构造用户项目类别矩阵,对用户进行模糊聚类;引入类别加权度,对评分进行加权修正,在此基础上应用协同过滤算法进行预测评分;将改进算法在Spark计算平台上做并行化实现。实验结果表明,当最近邻居数k取30到40时,CF-GUC算法相比于CF-mean算法、CF-UC算法、Pearson-CF算法, MAE值分别降低了约3.31%、3.02%、6.48%,在3种不同规模的数据集下基于Spark平台的CF-GUC算法运算效率比单节点提高了约40%到60%。
- 单位