摘要

目前,基于深度学习的图像目标检测算法已经趋于成熟,但其无法利用视频中独特的时序信息,会使检测精度产生大幅度的下降。为了更好的进行视频目标检测,应当充分挖掘视频图像之间的联系,利用视频中的时序信息。因此提出了基于时序信息和注意力机制的视频目标检测算法(TIAM)。算法中加入了运动历史图像,表征视频中的时序信息,并为模型提供目标的运动信息;结合注意力机制,使模型更加关注目标区域,提高了区域特征的代表性。在大规模数据集Image Net VID上进行实验,验证了算法的有效性,平均精度均值达到了先进水平。