摘要
使得机器人复现高等动物的运动技能是机器学习领域的研究热点。以柔性动作评价(SAC)为代表的强化学习算法在此任务中已取得成功,该框架将策略搜索和状态动作价值函数相结合,在连续控制问题中得到了应用。但智能体使用策略探索是贪婪的,评价网络估算的Q值函数却使用低估值。为了使智能体采取更好的策略,本文将策略蒸馏(PD)与SAC算法相融合,提出一种策略蒸馏柔性动作评价算法(PDSAC),该算法让智能体使用混合策略进行探索,使强化学习得到的奖励函数收敛速度加快。为验证所提算法有效性,理论证明此算法能提升策略的探索效率并在四足机器人步态学习任务中进行验证。对比仿真实验结果表明,相比SAC算法,PDSAC算法在步态学习任务中可以实现奖励函数值提高26.7%,同时收敛速度提升40%。
- 单位