摘要

现有的基于强化学习的推荐系统在获取用户偏好,编码用户偏好为用户状态时,只利用用户的短期偏好,然而用户不仅会依据短期内形成的偏好来选择商品,同时也会依据长期以来形成的偏好来选择商品。于是本文提出一个融合用户长短期偏好的基于强化学习的推荐模型。该模型可以细粒度地建模用户的长期偏好,并将长期偏好和短期偏好融合得到用户的动态偏好。本文在两个真实的数据集上与baseline进行比较,验证模型的有效性。