摘要
强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网络估计值函数与选择动作策略,解决了Q-Learning会因为状态序列的增加导致计算量庞大甚至无法求解的问题。此外,文章根据日前市场发电商报价方式设计了报价策略并作为DDQN的动作空间,将发电商中标电量与负荷需求作为DDQN的状态序列,在tensorflow环境中模拟竞价过程。实验结果表明,使用DDQN算法模拟发电商竞价行为是可行的,并且参与竞价的发电商都达到了纳什均衡点。
-
单位国电南瑞科技股份有限公司; 国网电力科学研究院有限公司