摘要

深度强化学习在移动机器人自主避障领域已得到广泛应用,其基本原理是通过模拟环境中的不断试错,结合奖励机制提升机器人的避障性能。然而,针对不同任务场景,网络训练效率存在显著差异。同时,在人群密集的场景中,机器人的行为可能对人类造成干扰。为了应对训练效率低下和机器人行为不符合社会规范的问题,提出了一种将社会力模型融入深度强化学习的自主避障策略。该策略首先将人类未来的运动轨迹考虑进奖励函数,以确保机器人理解人类意图并避免闯入人类的舒适区。其次,在训练过程中引入先验的传统控制器模型,并设计了一种基于概率的切换开关,以随机切换控制器输出,提高机器人的探索效率。实验结果表明,所提出的方法能够增加机器人与人类之间的安全距离,同时实现平稳导航。

全文