摘要
本发明提供一种快速收敛的多无人机协同对抗强化学习方法,涉及无人机领域,包括:获取多无人机协同对抗时的无人机状态数据;计算无人机状态数据的奖励回报;基于预先构建的强化学习网络对无人机状态数据进行处理,得到多无人机重决策方案;基于奖励回报更新强化学习网络;基于多无人机重决策方案获取多无人机协同对抗数据,并作为下一回合的无人机状态数据,以使更新后的强化学习网络对下一回合的无人机状态数据进行处理,以得到下一回合的多无人机协同对抗重决策方案。本发明将奖励回报设定为多无人机协同对抗参数奖励回报或多无人机协同对抗规则奖励回报,可以解决稀疏奖励的问题,使得多无人机在强化学习时可以快速收敛。
- 单位