摘要
本文通过将对象跟踪形式化为序列决策过程,使控制理论与计算机视觉实现同步。强化学习(RL)智能体成功跟踪了两种液体之间的界面,这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100张图像来创建环境,智能体无需专家知识即可从中生成自己的数据。与依赖大量参数的监督学习(SL)方法不同,这种方法需要的参数少得多,这自然降低了维护成本。除了经济性外,该智能体还对环境不确定性(如遮挡、强度变化和过度噪声)具有鲁棒性。在闭环控制情境下,基于界面位置的偏差被选作训练阶段的优化目标。该方法展示了RL方法在油砂行业中的实时对象跟踪应用。本文除了介绍界面跟踪问题外,还详细回顾了最有效的RL方法之一——actor-critic策略。