摘要

在军事游戏或仿真训练系统中,非玩家角色(No-player Character, NPC)的行进路线规划是物理行为建模的重要组成部分。深度Q网络(Deep Q-Network, DQN)算法作为深度强化学习(Deep Reinforcement Learning, DEL)的经典算法,非常适合于路线规划这类策略选择的应用研究。针对该算法在收敛性和最优路线规划上存在的问题进行了优化,提出了改进算法PRDQN。基于TD-error和SumTree对经验回放机制进行了改进,实现了优先级经验回放;根据距离优先的原则,对奖励函数进行了重新设计,提高了对距离最近坐标点的奖励值。通过对比实验证明,该算法在收敛性和最优路线选择方面都优于传统的DQN算法。

  • 单位
    中国人民解放军陆军工程大学