最新无模型深度强化学习研究:从零开始训练机器人“玩乐高”

作者:Tuomas Haarnoja; Vitchyr Pong; Aurick Zhou; Murtaza Dalal; Pieter Abbeel; Sergey Levine
来源:机器人产业, 2018, (03): 48-51.
DOI:10.19609/j.cnki.cn10-1324/tp.2018.03.008

摘要

伯克利最新提出无模型深度强化学习方法——soft Q-learning(SQL)算法,该算法可以对模拟和现实世界的任务执行组合性,同时在该算法基础上提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架。