摘要

新型电力系统中,源荷双侧的不确定性使得电网潮流波动大幅增加。电力系统安全校正控制能够消除系统潮流越限,保证电网安全运行。然而,传统安全校正控制方法约束众多、计算复杂,且面对大规模电网时难以进行实时多步决策。因此,提出一种基于深度确定性策略梯度(DDPG)的两阶段训练方法来确定安全校正控制策略。首先,将安全校正控制问题与深度强化学习联系起来,通过设计强化学习的状态、动作和奖励函数,构建了安全校正的马尔可夫决策过程模型。然后,提出了两阶段训练框架来求得最优校正策略。在模仿学习预训练阶段,基于专家策略,利用模仿学习为智能体提供初始神经网络,提高训练速度;在强化学习训练阶段,通过DDPG智能体与环境的不断交互进一步训练智能体。训练好的智能体可以实时应用,获得最优决策。最后,基于中国某省级电网的仿真算例验证了所提方法的有效性。

  • 单位
    国网辽宁省电力有限公司; 中国电力科学研究院有限公司; 国网冀北电力有限公司