摘要

针对强化学习算法训练网络规模较大、运行时间较长、过度拟合等问题,提出一种记忆可修剪型强化学习仿生模型(H-RLM)作为两轮机器人的学习机制。该算法将神经网络输出与期望输出的最小均方差作为代价函数,采用Hessian矩阵和Markov相结合的决策进行寻优,选择最大评价值对应的最优行为。这样既可以保证初期网络学习训练内容的完整性,又降低了系统对初始条件的约束性,提高了控制算法的泛化能力。利用H-RLM和强化算法对两轮机器人进行速度跟踪实验,结果表明,H-RLM算法能够提高网络学习效率、消除延迟影响、减小输出误差,获得了良好的动态性能。

全文