摘要
针对变电站巡检机器人需要在多种复杂变电站环境下进行快速部署和执行检测点遍历巡检任务的需求,提出了一种基于强化学习和多层神经网络的巡检路径规划算法。在强化学习框架下,提出了基于多层感知器的状态-行为预测模型,以实现根据在线感知和历史经验信息对当前最优的行为决策进行预测。通过对算法训练过程中的奖励函数进行有效设计,使用近端策略优化(Proximal Policy Optimization, PPO)对模型进行训练,诱导机器人同时实现检测点遍历和障碍物规避的目标。在主流仿真环境平台Open AI Gym上搭建仿真环境并进行实验验证。验证结果表明,所提出算法能够在多种类型变电站完成检测点遍历巡检路径规划任务。
-
单位西安建筑科技大学; 机电工程学院