摘要

传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大规模数据上的降维原理,论证了将minhash应用到协同过滤,设计并实现基于Minhash算法的协同过滤模型。实验结果表明Minhash能在保证推荐质量的前提下很大程度上缩短计算时间和存储空间,能有效地扩展到大规模数据集。