为了解决任务调度和资源分配的联合优化问题,构建了包括通信、计算和缓存(3C)的体系架构。为协调网络功能,动态分配有限的3C资源,采用深度确定性策略梯度(DDPG)算法,结合用户请求业务的多样性和动态的无线信道条件,获得移动虚拟网络运营商的最大利润函数。仿真结果表明,基于DDPG算法的资源分配方案明显优于其他2种方案。集成学习辅助DDPG算法的收敛速度更快,性价比更高。