摘要
以最小化平均消耗功率为目标,提出了一种具有服务质量保障的用户调度和功率分配机制。每个用户维持一个用于存储随机到达业务的数据队列,用户的服务质量要求被刻画成平均排队时延。基于无线信道和数据队列长度的动态变化,将用户调度和功率分配刻画成一个带有约束条件的马尔可夫决策问题。为了应对系统难以精确获取信道和数据到达过程分布参数的情况,采用Q学习算法求解马尔科夫决策问题,进而提出了一种在线学习的用户调度和功率控制算法。系统通过在线学习进行用户调度和功率分配,以实现平均消耗功率的最小化目标。
- 单位
以最小化平均消耗功率为目标,提出了一种具有服务质量保障的用户调度和功率分配机制。每个用户维持一个用于存储随机到达业务的数据队列,用户的服务质量要求被刻画成平均排队时延。基于无线信道和数据队列长度的动态变化,将用户调度和功率分配刻画成一个带有约束条件的马尔可夫决策问题。为了应对系统难以精确获取信道和数据到达过程分布参数的情况,采用Q学习算法求解马尔科夫决策问题,进而提出了一种在线学习的用户调度和功率控制算法。系统通过在线学习进行用户调度和功率分配,以实现平均消耗功率的最小化目标。