摘要
大多数的传统推荐系统是基于用户评分构建,并采用离线批量的训练模式.该文研究以下两个问题:(1)基于隐式用户反馈构建推荐系统.与显式评分相比,隐式反馈存在范围更广且更易于收集;(2)基于反馈数据流进行实时推荐,以此来保障更强的推荐时效性.为了克服由隐式反馈本质特征导致的不平衡类标问题,直接对可观察的用户选择行为进行概率建模,在训练时无需引入负样本.为了提高训练效率并及时抓住用户兴趣的变化,该文提出的在线学习算法在强化学习用户新倾向的同时弱化了学习用户惯常行为与噪声,通过比较反馈发生概率与用户置信度来为每一个反馈动态调节学习步长.最后,该文设计了在线评价机制,并在两个真实数据集上进行了丰富的实验....
- 单位