摘要
智能无人系统需要在复杂环境下快速稳定地进行决策,并具备应对非预期状态的能力。智能无人系统往往由于环境及任务复杂度高而难以实施决策管理,利用强化学习平台进行智能无人系统决策管理是很好的解决方案。针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理,在传感器有限的情况下对环境和态势进行准确感知与决策,使智能体能够利用自学习和自适应能力快速完成决策。强化学习通过与环境的自主交互过程来学习决策策略,使得策略的长期累积奖励值最大,通过强化学习平台和仿真平台的对接来进行决策模型搭建和智能体训练,并通过对智能体输出策略的控制来实现智能无人系统的决策管理。