摘要

针对终端直通(device-to-device, D2D)通信增强的非正交多址接入(non-orthogonal multiple access, NOMA)系统中复杂的同频干扰,联合模式选择和功率控制最大化比例公平和速率,从而平衡频谱效率和用户公平性。针对原混合整数非凸优化问题,提出了一种混合离线-在线资源分配机制:在离线训练阶段,首先通过变量变换将剩余的功率控制子问题等价转化为凸优化问题,继而借助成熟的凸优化工具在毫秒级时间内得到全局最优解。基于上述优化结果,进一步利用深度Q学习算法构建从模式选择方案和信道状态信息到最佳模式调整策略之间的映射关系。训练后的资源分配机制仅需执行简单的代数操作并求解单个凸优化问题,故适合在线部署。仿真结果表明,所提混合离线-在线机制有效平衡了算法性能与运算时间,相比于通过遍历得到的全局最优解,其在仅损失约10%的性能下将平均运算时间降低了94.54%。

全文