摘要
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG((Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。
-
单位北方自动控制技术研究所