摘要

源荷的不确定性一直是综合能源系统优化调度中的难点问题。针对源荷不确定波动问题,提出一种基于数据深度强化学习的近端策略优化调度方法,实现在阶梯式碳交易下,满足用户需求的综合能源系统最优成本和降低碳排放总量的优化调度。首先,以阶梯式碳交易下计及碳交易费用的系统总成本为目标,建立多类型柔性负荷综合需求响应模型,提高需求响应的响应能力和调度灵活性;然后,在深度强化学习的框架下,设定了该模型的马尔可夫决策过程(Markov decision process, MDP);最后,对不确定性带来的数据变化,使用近端策略优化(proximal policy optimization, PPO)算法求解,引入小批量更新和重要性采样,将每次策略更新的幅度限制在一定范围内,从而保证策略更新的准确性。仿真结果表明,本方法可有效解决源荷不确定性带来的影响,有效降低碳排放总量和系统日平均运行成本。

全文