摘要

通过将模仿学习归约为强化学习问题,结合基线的SAC算法和基于ILR奖励的模仿者奖励机制,提出了一种基于模仿者学习的自动驾驶寻迹决策模型。实验结果表明,该模型在提高自动泊车系统的精确度和速度方面都取得了显著改进,为自动驾驶技术的发展提供了潜力和新的方向。

全文