摘要

本发明提供一个基于强化学习的车辆共享服务订单派遣方法及系统,包括收集乘客的信息和车辆的信息,根据乘客的需求,根据乘客的起点和终点同时进行相应限制,搜索满足乘客时空约束的车辆得到候选车辆集合;计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,包括车辆的绕路比、座位利用率、车辆的隐藏收益和未来收益;按照车辆的绕路比对所有候选车辆进行升序排列,选择最终候选车辆集合;将每一辆车的派遣因素输入至深度评估网络中进行评估,选择评估结果最优的车辆返回给乘客和车辆,如果深度评估网络训练完成,则结束当前次评估,否则结合强化学习策略和梯度下降方法对深度评估网络进行训练,支持下一次用新的深度评估网络进行评估。