摘要

搜索与救援优化算法(search and sescue optimization algorithm, SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题。但是,SAR存在收敛慢、个体不能自适应选择操作等问题,因此,本文提出一种新的基于强化学习改进的SAR算法(即RLSAR)。该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,用异步优势演员评论家算法(asynchronous advantaged actor-critic algorithm,A3C)训练强化学习模型使SAR个体获得自适应选择算子的能力。所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列三个方面对训练好的模型进行探索性实验。其结果表明,RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,说明新算法可作为一种有效的无人机路径规划方法。

全文