摘要
深度强化学习在环境中不断探索尝试,通过奖励函数对神经网络参数进行调节。实际的生产线无法作为算法的试错环境,不能提供足够的数据,构建一个机械臂仿真环境,包括机械臂与物体两部分,根据目标设置状态变量与奖励机制,在模型中对深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)进行训练,实现通过深度强化学习算法控制机械臂,将抓手移动至物体下方,改进控制算法的适应性,缩短调试时间。实验结果表明,深度学习算法能够在更短的时间内达到收敛,实现对机械臂的控制。
-
单位北京电子工程总体研究所; 北京仿真中心