摘要
为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q函数和回报值,因为智能体的决策过程需要考虑其他用户的决策。理论证明了MAQ学习算法的收敛性。仿真结果表明,MAQ算法的吞吐量性能接近中心式的学习算法,但是MAQ只需要较少的信息交互。
-
单位中国人民解放军陆军工程大学