摘要

本文提出基于改进TD3算法的车道保持端到端决策新方案.首先,构建多数据融合TD3算法框架,感知自主车辆运动学数据信息和视觉图像信息来提升算法的稳定性.并且结合注意力机制思想细化图像特征,使得算法关注重要道路信息,以此增强算法可解释性.其次,综合考虑驾驶的安全性、舒适性和效率性因素设计了指导型奖励函数,以引导智能体学到更加类人的驾驶策略.最后,采用分类与高价值优先级经验回放方法 ,以提高样本利用率和加快算法收敛速度.借助TORCS仿真平台,设计了多组对比实验,以验证所提方法的有效性和可行性;并且通过多个场景的仿真测试,验证了改进TD3算法的整体性能优于TD3算法.