摘要

本发明公开了一种基于强化学习算法的功率域NOMA中的功率分配方法,将Actor#Critic算法中的Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor#Critic算法中的Actor部分进行策略更新;通过不断的迭代,最终使得状态动作值函数和策略趋于最佳值函数和最佳策略,此时系统的能量效率是最优的,解决了现有中功率分配方法复杂度较高,且在优化系统的性能方面不能达到很好效果的问题。