摘要

以载重50 t纯电动矿用汽车为研究对象,提出了一种基于深度强化学习优化算法的再生制动回馈策略。首先建立了纯电动矿用自卸车的数学模型。随后提出了一种考虑载重和坡度变化的基于自动熵调节Soft actor-critic (SAC)和深度确定性策略梯度算法(DDPG)的能量管理策略。其中车速、加速度、车辆质量与道路坡度、动力电池荷电状态(SOC)及充放电倍率作为状态变量;变速箱挡位作为动作变量;动力电池SOC及电池寿命作为奖励函数。仿真结果表明,基于动态规划的控制策略和所提出的基于SAC算法与基于DDPG算法的优化控制策略回馈效率分别提高了18.15%、17.18%和16.63%,电池寿命分别提升了57.31%、56.87%和57.38%。最后通过比较两种基于深度强化学习算法策略的奖励曲线,可以看出与基于DDPG算法的控制策略相比,所提出的基于SAC的能量管理控制策略的收敛速度提升了166.7%。