摘要
本发明公开了一种基于强化学习解决认知无线电中的功率分配算法,S1、设置深度学习算法的初始值参数,S2、设置关于CR-NOMA系统的场景模型,并设置关于状态和动作的初始状态集合;S3、当某一计算时刻t小于等于最大限制的时间值T-(max)时,求得时刻t下的状态值并计算相对应的奖励函数,并计算TD误差δ-t;S4、基于值函数选择用户的下一步动作,利用学习率以及TD误差值函数,将初始值函数更新为Q(s-t,a-t)←Q(s-t,a-t)+η-cδ-t;再根据已选择的执行动作获得相应的奖励,并获得策略函数π(g),然后将其更新为π(s-t,a-t)←π(s-t,a-t)-η-aδ-t;π(g);S5、根据步骤S3使TD误差值达到最小,不停的迭代更新,最后获得最大的奖励函数值,即分配算法结束。解决了现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。
- 单位