基于强化学习的多目标车辆跟随决策算法

邓小豪; 侯进<sup>*</sup>; 谭光鸿; 万斌杨; 曹婷婷

doi:10.13195/j.kzyjc.2020.0426

摘要

为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策略梯度算法(deep deterministic policy gradient, DDPG),提出一种新的多目标车辆跟随决策算法.根据跟随车辆与领航车辆的相互纵向运动学特性,建立车辆跟随过程的马尔可夫决策过程(Markov decision process, MDP)模型.结合最小安全距离模型,设计一个高效、舒适、安全的车辆跟随决策算法.为提高模型收敛速度,改进了DDPG算法经验样本的存储方式和抽取策略,根据经验样本重要性的不同,对样本进行分类存储和抽取.针对跟车过程的多目标结构,对奖赏函数进行模块化设计.最后,在仿真环境下进行测试,当测试环境和训练环境不同时,依然能顺利完成跟随任务,且性能优于已有跟随算法.

单位
西南交通大学

全文

访问全文

收藏分享被引(9) 浏览

更新时间：2024-04-17 18:02

基于强化学习的多目标车辆跟随决策算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友