基于视觉注意力机制的异步优势行动者-评论家算法

李杰; 凌兴宏<sup>*</sup>; 伏玉琛; 刘全

摘要

异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。

单位
吉林大学; 苏州大学

收藏分享被引浏览

更新时间：2024-04-10 14:38

基于视觉注意力机制的异步优势行动者-评论家算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友