摘要
针对面向混合能源供应的5G异构云无线接入网(H-CRANs)网络架构下的动态资源分配和能源管理问题,该文提出一种基于深度强化学习的动态网络资源分配及能源管理算法。首先,由于可再生能源到达的波动性及用户数据业务到达的随机性,同时考虑到系统的稳定性、能源的可持续性以及用户的服务质量(QoS)需求,将H-CRANs网络下的资源分配以及能源管理问题建立为一个以最大化服务提供商平均净收益为目标的受限无穷时间马尔科夫决策过程(CMDP)。然后,使用拉格朗日乘子法将所提CMDP问题转换为一个非受限的马尔科夫决策过程(MDP)问题。最后,因为行为空间与状态空间都是连续值集合,因此该文利用深度强化学习解决上述MDP问题。仿真结果表明,该文所提算法可有效保证用户QoS及能量可持续性的同时,提升了服务提供商的平均净收益,降低了能耗。
-
单位重庆邮电大学; 通信与信息工程学院