异策略模仿-强化学习序列推荐算法

刘珈麟; 贺泽宇; 李俊

doi:10.19734/j.issn.1001-3695.2023.10.0447

摘要

最近，强化学习序列推荐系统受到研究者们的广泛关注，这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而，现有方法面临同策略评估方法数据利用率低，导致模型依赖大量的专家标注数据，以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此，提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先，它通过异策略方式更新分布匹配目标函数，来避免同策略更新密集在线交互限制；其次，COG4Rec采用可学习的价值函数设计，通过对数衰减状态分布比，模仿用户外倾向的价值激励函数；最后，为了避免模仿学习分布漂移问题，COG4Rec通过累积衰减分布比，强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明：COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的，并且异策略方式能有效提高数据利用效率。

单位
中国科学院计算机网络信息中心; 北京信息科技大学; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 17:17

异策略模仿-强化学习序列推荐算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友