摘要
本发明公开了一种D2D通信中联合资源分配和功率控制方法,克服了现有资源分配方案会导致频谱资源浪费同时无法满足系统容量最大化的问题。本发明含有以下步骤,一、离散划分信道资源块和功率等级;二、对D2D通信场景基于深度强化学习建模;三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构;四、基于设置好的系统模型,利用深度强化学习的算法使智能体和环境交互进行1000次迭代学习输出最优结果;五、输出学习到的最优策略。本发明采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。
- 单位