摘要
为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,DDPGwE)。DDPGwE采用基于DDPG的强化学习框架进行模型在线训练,使用真实的人类驾驶数据对actor网络进行预训练,同时在actor网络中加入LSTM预测机制,提升自动驾驶车对将要发生状况的预判。在仿真平台TORCS中的实验结果表明,所提算法相较于原始DDPG算法,训练时间大大缩短,收敛速度加快,提高了模型的稳定性和泛化能力。
- 单位