摘要

近年来,人工智能研究领域中强化学习大受欢迎,它与监督学习有异曲同工之妙,也有许多的不同点可以区分。首先,监督学习需要在他人的督促下进行,而强化学习更多的依赖自身的管理。强化学习强调能够不是先设置目标,从周围数据中获得有关动作的反馈信息,然后再利用这些信息来优化模型数据。显而易见,强化学习具有广阔的前景。集多种环节于一体的复杂控制系统,具有非常经典的复杂问题,以本次论文研究的倒立摆为例。自然界有很多无规律的不稳定的物体,倒立摆系统可以通过控制手段,使不稳定的物体变得稳定,具有规律性。而在控制过程中,倒立摆系统也是一个验证各种控制理论的很理想的模型之一。它可以反映例如可镇定性,随机能动性以及鲁棒性一系列情况。近代以来,倒立摆系统广泛应用于我们的生活当中。卫星的运行、火箭的飞行都借助了倒立摆系统。因此,非常有必要对倒立摆系统进行研究,该系统具有无可取代的现实意义,以及深刻的工程意义。