摘要

本发明公开了一种包裹分离系统及方法,该系统包括:传送带模块;机器视觉处理模块;嵌入式设备,从机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,利用训练好的策略网络推理进行智能决策,输出各传送带的速度值;服务器,获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数以供下载;一个或多个工作站,从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行训练策略网络和Q值网络,并于训练好后上传最新的策略网络参数到服务器。