摘要
现有无人车辆的驾驶策略过于依赖感知-控制映射过程的"正确性",而忽视了人类驾驶汽车时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端无人驾驶控制策略。通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为输出率。针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函数,提高了算法训练的稳定性。不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了21%,任务成功率提高了19%,任务执行效率提高了15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故。
- 单位