摘要

在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满足条件的规划知识,然后将规划知识作为启发知识,进一步指导后继激励学习.实验结果显示这种学习技术能有效加快算法收敛速度,并适用于动态复杂环境.

全文