摘要
针对现阶段强化学习方法在自动驾驶应用中存在数据效率低、场景适应性差的问题,提出一种基于环境表征的强化学习自动驾驶策略。首先设计了一个驾驶环境表征模型,结合多头注意力、卷积神经网络和长短期记忆网络从连续视觉输入中提取时空特征,并采用变分自编码器对鸟瞰图输入进行降维。在此基础上,融合测量信息构成驾驶环境的综合表征。最后,将表征模型与多种经典的强化学习方法结合,并在Carla中进行仿真实验。结果表明:所提表征模型能够显著提升驾驶策略的学习效率,完成多种动静态驾驶任务,提升了智能体决策的准确性和场景适应能力。
- 单位