一种多感知多约束奖励机制的驾驶策略学习方法

王忠立; 王浩; 申艳; 蔡伯根

doi:10.13229/j.cnki.jdxbgxb20210412

摘要

针对交通场景的复杂性和多变性，深度学习算法和深度强化学习方法适应性较差的问题，本文提出一种基于多感知输入多约束奖励函数的深度强化学习方法。方法的输入包括前视图像和激光雷达数据和鸟瞰图信息，多种输入信息经过编码网络得到潜在空间表示，经过重构后作为驾驶策略学习的输入，并在奖励函数的设计中综合考虑了横纵向误差、航向、平稳性、速度等多种约束，从而有效提高了场景的适应能力和策略学习的收敛速度。在仿真环境CARLA下搭建了典型的交通场景对方法的性能进行了仿真验证，并对多约束奖励机制进行了分析对比。结果表明：本文方法能实现车辆在多场景下的驾驶决策，性能明显优于同类SOTA方法。

单位
电子信息工程学院; 北京交通大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 15:18

一种多感知多约束奖励机制的驾驶策略学习方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友