摘要
针对江西电网用电负荷增长迅速,电网负荷呈现明显的高尖峰、短持续特征,在充分考虑供需双方收益的前提下,建立了考虑碳排放和用户满意度的需求响应激励策略优化模型,并采用强化学习的Q学习算法对模型进行迭代求解。将用户与电网进行交互的强化学习框架转换为马尔可夫决策过程(Markov decision process,MDP),并通过积累的真实需求响应历史数据辨识模型参数求解最大综合收益值,分析不同权重因子对用户满意度、电网收益、居民用户收益的影响。算例结果表明,所提出的需求响应策略优化模型能够有效平衡电网和用户双方的收益,缓解电网用电高峰时段供需不平衡问题。
-
单位南昌工程学院; 江西博微新技术有限公司; 国网江西省电力有限公司