基于深度强化学习的自动驾驶策略学习方法

夏伟; 李慧云

doi:10.3969/j.issn.2095-3135.2017.03.003

摘要

自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法。首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力。通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90%以上,稳定性能提高超过30%。以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70%以上。

单位
中国科学院深圳先进技术研究院; 中国科学院大学; 深圳先进技术学院

全文

访问全文

收藏分享被引浏览

更新时间：2025-02-15 04:03

基于深度强化学习的自动驾驶策略学习方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友