摘要
为了提升无蜂窝毫米波大规模MIMO (Cell-Free millimeter-Wave massive MIMO,CF mmWave mMIMO)系统总能量效率,本文研究时变信道环境中接入点(Access Point,AP)睡眠节能机制.将AP开关切换(AP Switch ONOFF,ASO)策略看作一个马尔可夫决策过程,使用深度强化学习(Deep Reinforcement Learning,DRL)工具解决AP开关问题.引入干扰感知技术和局部敏感哈希检索方法减少代理与复杂环境的交互以及样本偏差,构造了一个新的效用函数,在严格用户服务质量(Quality of Service,QoS)约束下更好地权衡总能效和可达速率性能.通过对效用函数离散化分级处理,将状态空间映射为更小的分级状态空间,以加快决斗深度Q网络(Dueling Deep Q-Network,Dueling DQN)的收敛速度.仿真结果证明了该方案的稳定性、收敛性和严格QoS约束下的总能效性能优势.
-
单位通信与信息工程学院; 重庆邮电大学