摘要
结合人工势场算法原理,引入奖赏生成机构对传统SARSA学习算法的奖赏生成机制进行改进,改进后的SARSA学习算法通过判断执行动作的有效性进一步结合环境信息实时生成动态奖赏,继承了人工势场算法良好的控制性能,能够根据连续预估的代价场信息进行优化搜索,使奖赏累积过程更为平滑。基于直升机CGF突袭雷达阵地模型进行仿真实验,分别对比算法收敛所需迭代次数和完成任务成功率,改进SARSA学习算法收敛时所需迭代次数是传统SARSA学习算法的一半,经过1 000次迭代,改进SARSA学习算法完成任务成功率平均比传统SARSA学习算法提升12%。仿真实验表明:改进SARSA算法相对传统SARSA算法有着更优异的性能,算法收敛速度以及完成任务成功率都有明显提升,改进SARSA算法能够为直升机CGF规划安全路径。
-
单位中国人民解放军陆军工程大学