摘要
梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的联合分布函数;再根据时序差分思想分别建立目标神经网络和主神经网络,分别逼近当前和下一状态对应的动作状态价值,并采用ε-贪婪探索利用策略获取最优调度策略;最后将主要参数分步调优保障调度效益。算例对比表明,深度Q网络算法相较于Q学习算法及其改进算法提升了优化调度目标值,加快收敛速度,有效解决了梯级水库随机优化调度中的维数灾问题。
- 单位