摘要

针对强化学习大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先引入Q表中已探索Q值作为先验知识,然后利用FM建立先验知识中状态和行动间潜在的交互作用模型,最后基于该模型预测Q表中未知Q值,进一步引导智能体探索。在OpenAI Gym的强化学习环境Cliffwalk中进行A/B测试,基于本文方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,本文所提方法提高了传统策略的探索安全性,同时加快了收敛速度。