摘要
结合强化学习(特别是深度强化学习)的推荐算法,在近年来相比已有方法取得了较大的提升。然而,现有绝大多数基于深度强化学习的推荐方法仅使用循环神经网络(RNN)等方法学习用户的短期兴趣,忽略了用户的长期兴趣,导致对用户的兴趣建模存在不足。因此,该文提出一种结合用户长期兴趣与短期兴趣的深度强化学习推荐方法(LSRL)。首先,LSRL方法使用协同过滤方法来学习用户的长期兴趣;其次,LSRL方法利用门控循环单元(GRU)对用户最近的正反馈与负反馈交互记录进行建模学习,得到用户的短期兴趣表示;最后,LSRL方法重新设计了深度强化学习的Q-网络框架,结合两方面的用户兴趣表示并将其应用于深度Q-网络(Deep Q-Network)中,预测用户对物品的反馈。在MovieLens数据集上的实验结果表明,该文提出的推荐方法比其他基线方法在归一化折损累计增益(NDCG)与命中率(Hit Ratio)上有显著提升。