摘要

本发明公开了一种基于逆向深度强化学习的混动系统能量管理策略。所述策略包括:利用优化求解方法计算全局优化的SOC结果作为专家知识;创建奖励神经网络;利用逆向强化学习学习专家知识得到奖励神经网络的参数;创建动作神经网络、评价神经网络;设定车辆交互前SOC值;将获取到的交互前SOC值输入到奖励神经网络得到奖励值;将获取到的交互前SOC值输入到动作神经网络得到模式分配比;用模式分配比与环境进行交互,得到交互后SOC值;将交互前SOC值、模式分配比、奖励值、交互后SOC值输入评价神经网络得到评价值;智能体分别计算各个网络的梯度并反向传播更新网络参数,直到训练完毕。本发明能够从专家知识中学习到最优的奖励函数,使深度强化学习效果更好。