分析强化学习课程教学中存在的问题,将“路径寻优”案例引入课程教学,探索以一个案例串联强化学习核心算法的教学方法。首先,基于“路径寻优”案例构建马尔可夫决策过程模型;其次,阐述动态规划方法、蒙特卡洛方法、时序差分方法的原理及区别;最后,结合“路径寻优”案例,通过关联编程,更加直观地讲解强化学习核心算法的区别,提高强化学习课程的教学质量。