摘要
为降低多设备多边缘服务器场景中设备层级的总成本并解决现有深度强化学习(Deep Reinforcement Learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(Hybrid-based Multi-Agent Deep Determination Policy Gradient, H-MADDPG)。首先,考虑物联网设备/服务器计算能力随负载动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件建立MEC系统模型;其次,以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后,将问题以马尔科夫决策过程(Markov Decision Procession, MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,计算密集型的任务需求下也能保持更大的系统吞吐量。
- 单位