摘要
针对智能车辆的高精度侧向控制问题,提出一种基于滚动时域强化学习(Receding horizon reinforcement learning, RHRL)的侧向控制方法.车辆的侧向控制量由前馈和反馈两部分构成,前馈控制量由参考路径的曲率以及动力学模型直接计算得出;而反馈控制量通过采用滚动时域强化学习算法求解最优跟踪控制问题得到.提出的方法结合滚动时域优化机制,将无限时域最优控制问题转化为若干有限时域控制问题进行求解.与已有的有限时域执行器-评价器学习不同,在每个预测时域采用时间独立型执行器-评价器网络结构学习最优值函数和控制策略.与模型预测控制(Model predictive control, MPC)方法求解开环控制序列不同, RHRL控制器的输出是一个显式状态反馈控制律,兼具直接离线部署和在线学习部署的能力.此外,从理论上证明了RHRL算法在每个预测时域的收敛性,并分析了闭环系统的稳定性.在仿真环境中完成了结构化道路下的车辆侧向控制测试.仿真结果表明,提出的RHRL方法在控制性能方面优于现有先进算法,最后,以红旗E-HS3电动汽车作为实车平台,在封闭结构化城市测试道路和乡村起伏砂石道路下进行了侧向控制实验.实验结果显示,RHRL在结构化城市道路中的侧向控制性能优于预瞄控制,在乡村道路中具有较强的路面适应能力和较好的控制性能.
- 单位