摘要
视频注视目标检测,需要估计视频帧中的人所注视目标的位置。在不同的时间,人会注视不同的目标。在两个注视目标转移的时间段内,人并没有注视特定的目标。基于图像Transformer的注视目标检测方法,忽略了抑制注视转移现象。注视转移中的注视方向,会干扰注视目标的真实位置估计。为了实现视频注视目标检测,本文提出一种基于注视转移的模型,该模型包括注视方向引导模块,注视转移时间融合模块。在注视方向引导模块中,注视目标位置被用于估计注视方向热图。该模块使用注视方向热图来引导注视目标热图生成,这有利于抑制非注视方向的目标响应,提高注视目标定位的准确性。在注视转移时间融合模块中,注视目标热图随着时间变化会产生时空热图。该模块对时空热图采用双向时空卷积LSTM,产生时空记忆融合的注视目标热图,来描述时空热图中注视目标的变化过程。该模块将注视转移时间段描述为高斯时间模型。针对注视转移的时间长度不确定的问题,该模块设计高斯时间融合方法,来估计出注视转移的视时间长度和注视转移的开始和结束时间。注视转移时间段的准确定位,抑制了注视转移现象对注视目标位置估计的干扰。本文模型训练使用了注视方向损失,注视目标存在损失,注视目标热图损失,以及注视转移时间定位损失。实验采用GazeFollow和VideoAttentionTarget数据集。实验表明我们基于注视转移的模型,优于基于图像Transformer 的注视目标检测方法。