摘要
面向非公路混动车辆“无模型”电量保持控制,提出了一种融合备份预测模型和双Q学习算法的学习系统(PDQL),通过更快、更稳健的机器学习,不断优化车辆的能量效率。与现有的标准无模型控制策略的单独进行同策略学习方法或者单独进行异策略学习方法对智能体经验库进行更新不同,本文提出的PDQL将其中一个Q表看做一个备份经验库,以融合同策略学习过程与异策略学习过程。基于所研究车辆的实时模型,利用软件在环和硬件在环测试平台,对PDQL系统进行实验评估。通过对比标准双Q学习(SDQL),PDQL只需要一半的时间就能达到SDQL所能获得的最佳能量效率。经过35轮离线学习,PDQL可以在SDQL的基础上,再提高1.75%的车辆能量效率。对PDQL进行鲁棒性测试,在模拟真实驾驶条件下,与基于SDQL算法的车辆相比,可以节省5.03%以上的能量。
- 单位