摘要
在机器人领域,通过深度学习方法来解决复杂的控制任务非常具有吸引力,但是收集足够的机器人运行数据来训练深度学习模型是困难的.为此,提出一种基于渐进式神经网络(progressive neural network,PNN)的迁移算法,该算法基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)框架,通过把模型池中的预训练模型与目标任务的控制模型有机地结合起来,从而完成从源任务到目标任务的控制策略的迁移.两个仿真实验的结果表明,该算法成功地把先前任务中学习到的控制策略迁移到了目标任务的控制模型中.相比于其他基准方法,该算法学习目标任务所需的时间大大减少.
- 单位