摘要

基于学习的自动驾驶决策模型中,强化学习模型存在收敛慢和应用场景单一的问题,模仿学习模型则有泛化性差的问题。为了解决该问题,提出了一种两层的强化学习框架代替自动驾驶任务中的决策层和控制层,决策层将驾驶行为分为车道保持、左变道和右变道,决策层选择对应的行为后,通过改变控制层输入的方式完成该行为。然后结合强化学习和在线专家提出了一种训练控制层的新方法RL_COE(Reinforcement learning combined with online experts)。最后在Carla中搭建了高速公路仿真环境对所提算法进行验证,并与强化学习基线算法进行比较,结果表明该方法大大提高了算法的收敛速度和稳定性,可以更好的完成驾驶任务。

全文