为解决传统机械臂控制方法编码复杂、适应环境能力较差等问题,利用深度强化学习主动探索未知环境的特点对机械臂运动控制进行研究。致力于提高机械臂对环境的适应能力,降低环境对机械臂控制的干扰,采用分布式策略梯度算法,并重置奖励函数,与深度确定性策略梯度算法进行对比试验,极大地减少了算法训练时间,提高了机械臂在仿真环境中所能达到的最大奖励值,使末端执行机构快速、准确地到达目标位置。