摘要

针对认知无线网络(Cognitive Radio Network,CRN)中的频谱切换问题,提出了一种基于强化学习的近端策略优化(Proximal Policy Optimization,PPO)方法。首先,将频谱切换问题建模为马尔可夫决策过程,设计了一种基于用户体验质量(Quality of Experience,QoE)的回报函数。其次,通过训练算法模型使长期回报最大化,从而实现了最优频谱切换。最后,通过仿真实验对提出的切换方法进行验证。结果表明,基于PPO的频谱切换方法能够实现更高效和更稳定的切换,提高了认知用户的可用传输速率和数据交付成功率,缩短了数据交付时间。

  • 单位
    江苏省生态环境监控中心; 中国人民解放军陆军工程大学