摘要
本文设计开发了一种基于Spark的农产品智能推荐系统,系统使用EM聚类的协同过滤算法,根据用户行为数据构建用户兴趣模型,然后用EM聚类算法将用户分为不同的用户簇,在不同用户簇的基础上并行化实现基于物品的协同过滤。Spark作为一个分布式计算框架,它将计算数据与中间结果都储存在内存中,能大大节省I/O开销提高计算效率。通过对阿里巴巴天池大数据平台的数据集进行试验表明,在Spark大数据计算平台上使用基于EM聚类的协同过滤推荐算法能够有效减少推荐时间,该系统在一定程度上解决了推荐的实时性与数据稀疏性问题,对于农产品电商系统开发应用具有一定参考价值。
- 单位