摘要
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。
-
单位通信与信息工程学院; 重庆邮电大学