摘要

针对现有自动驾驶运动规划方法存在未能有效利用长时间连续的时间特征以及在复杂交通场景中成功率低的问题,提出一种基于Transformer的复杂交通场景自动驾驶运动规划模型。该方法以GPT-2为基础模型,通过对离线强化学习进行时序建模,能够有效表征离线强化学习模型中车辆的状态、动作、奖励数据长时间的依赖关系,让模型能够更有效地从历史规划数据中学习,提高在复杂交通场景中规划的准确性和安全性。实验运用MetaDrive模拟器进行仿真测试,结果表明在汇入主路、进入环岛等复杂交通场景中取得了高达93%的成功率,比现有先进的行为克隆算法、策略约束算法、基于双延迟深度确定性策略的行为克隆算法的成功率分别高20%、19%、13%,说明该方法相比对比方法能够更有效地从质量不高的数据集中学习驾驶策略,具有更好的泛化性能和鲁棒性。