摘要
视频目标分割任务是通过算法自动获得视频序列中感兴趣目标对应的像素级区域.因为存在目标表观变化、尺度变化、相似目标干扰、遮挡等困难,所以视频目标分割是一个非常有挑战的任务.现有的方法按照对给定的视频第一帧真实标签的利用方式不同可以分为两类:一类是基于在线归纳学习的方法;另一类是基于直推推理的方法.基于在线归纳学习的方法为了获得准确的结果,在测试阶段,利用给定的初始帧分割图来在线地微调整个网络,导致时间消耗较大,很难满足实时需求.此外,基于直推推理的方法在建模时序推理规则时需要使用大量的合成数据或者标注数据,增加了算法训练的成本.为了充分利用基于在线归纳学习和基于直推推理的两类算法的优点,同时避免两种方法的缺点,本文提出了一个新的结合在线归纳学习和直推推理的快速视频目标分割算法,该网络由直推推理分支和在线归纳分支组成.具体的,直推推理分支可以通过视频前若干帧图像和对应的分割图建模视频短期内的时序变换和运动信息,从而推理出当前帧的分割结果,其学到的时序特征可以指导网络提高视频分割的稳定性.直推推理分支的预训练过程中只需要使用无标注的原始视频数据,不需要使用任何的合成或标注信息.在线归纳分支根据参考帧在线训练,学到目标表观的判别性特征,提供长期的表观判别力.为了提高测试速度,不同于以往的方法,本文没有利用第一帧在线微调整个网络,而是通过在线更新一个非常轻量的模板网络.轻量模板网络提供粗略的分割结果作为注意力图作用到时序特征和当前帧的图像特征,然后经过解码网络生成最终更加精细的分割结果.通过大量的实验,表明本文的方法取得了当前较优的效果,在DAVIS-2017和YouTube-VOS数据集上分别达到了J&F指标的72.9%和73.8%,在DAVIS-2016数据集上速度达到18帧每秒.
-
单位哈尔滨工业大学(威海); 中国科学院大学