摘要

用户侧分布式储能响应电价同时参与一次调频(PFR)服务的日内运行过程,需要在多维不确定信息下开展优化决策,以保障PFR的可靠性能及运行经济效益。将日内运行问题构建为考虑PFR性能约束的马尔可夫决策过程,进而提出了一种“前瞻-值函数近似”混合运行策略。在离线阶段,基于近似动态规划思想引入决策后状态近似值函数,以表征不同时段状态下的长期期望效益,并利用差分学习算法对近似效益函数开展离线训练。日内运行过程中,结合滚动更新的预测信息以及离线训练的长期时域近似效益函数,在线滚动优化两阶段近似动态规划模型以动态获取各时段近似最优决策。算例结果表明,所提策略能够兼顾全局经济效益与在线运算开销,同时保障分布式储能资源的频率响应能力。