基于UCB算法的交替深度Q网络

吴卿源; 谭晓阳<sup>*</sup>

摘要

在深度强化学习中，智能体需要与环境进行交互学习，这就需要智能体能够很好地去平衡利用与探索.因此如何提升算法的样本有效性，增加算法的探索能力，一直是深度强化学习领域中非常重要的研究方向.结合已有研究成果，提出了一种交替使用多个不同初始化深度Q网络方法，使用网络随机初始化带来的探索性能.基于最大置信度上界算法先构造一种交替选择深度Q网络策略.并将该调度网络策略与多个随机初始化的深度Q网络结合，得到基于最大置信度上界的交替深度Q网络算法.在多个不同的标准强化学习实验环境上的实验结果表明，该算法比其他基准算法有更高的样本效率和算法学习效率.

单位
南京航空航天大学; 工业和信息化部

收藏分享被引浏览

更新时间：2024-03-19 13:46

基于UCB算法的交替深度Q网络

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友