摘要

针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用,生成最优的动作序列决策,规划待装配体的装配路径。实验结果表明,在狭窄空间中,利用模糊贝叶斯-深度Q网络算法解决虚拟装配的路径规划问题具有较好的通行性和规划效率。

全文