摘要

本发明公开了一种针对智能体长程连续控制任务的离线示教学习系统,包括:长程候选路径规划器模块,负责根据任务环境中被操纵物体和智能体的初始状态生成多条包含多个子目标状态的候选路径;最优路径选择模块,负责对生成的多条候选路径进行价值评估,从中选出价值最高的一条路径作为最优路径;子目标约束下的最优动作选择模块,负责以最优路径作为指导路径,以指导路径上的单个子目标状态为约束,根据当前操纵物体和智能体状态生成智能体的动作到达新的状态,在进行多次状态转换后,更换子目标直至跟踪完指导路径上的所有子目标状态,完成对被操纵物体的长程连续控制任务。本发明有利于智能体在真实环境下利用人类示教数据进行离线学习。