摘要
随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,提出一种深度Q网络(DQN)强化学习与暂态能量函数相结合的紧急控制决策方法,多步序贯决策过程中可应对紧急控制的时滞不确定性影响。奖励函数以考虑控制目标和约束条件的短期奖励函数和考虑稳定性的长期奖励函数构成,并在奖励函数中引入暂态能量函数的势能指数来提高学习效率。以最大化累计奖励为目标,通过DQN算法在离散化动作空间中学习得到最优紧急控制策略,解决暂态稳定紧急控制问题。所提方法通过IEEE 39节点系统验证了模型在紧急控制决策中的有效性。
- 单位