摘要

本文针对车辆队列中多目标控制优化问题,研究了基于强化学习的车辆队列控制方法.控制器输入为队列各车辆状态信息以及车辆间状态误差,输出为基于车辆纵向动力学的期望加速度,实现了在V2X通信下的队列单车稳定行驶和队列稳定行驶.根据队列行驶场景以及采用的间距策略、通信拓扑结构等特性,建立队列马尔科夫决策过程(Markov decision process, MDP)模型.同时根据队列多输入-多输出高维样本特性,引入优先经验回放策略,提高了算法收敛效率.为贴近实际车辆队列行驶工况,仿真基于PreScan构建多自由度燃油车动力学模型,联合Matlab/Simulink搭建仿真环境,同时引入噪声对队列控制器中动作网络和评价网络进行训练.仿真结果表明基于强化学习的车辆队列控制燃油消耗更低,且控制器实时性更高,对车辆的控制更为平滑.

全文