摘要

时序动作检测是一个具有发展前景和挑战性的任务,不仅要给出视频中各个动作实例开始和结束的具体时刻,还要给出动作实例的类别。目前的方法可以生成时序动作提名来表示动作实例开始和结束的时刻,但是在准确性上还需要提高。为了解决这个问题,提出了一个边界意识匹配网络来提取精确的动作提名,即候选的视频动作时序片段,并提高了召回率。该网络首先用长短期记忆网络(LSTM)来提取连续时间帧的特征来预测动作提名的边界,然后利用匹配机制来评估动作提名的置信度,得到具有高精度和高召回率的动作提名。此外,结合现有的动作分类器,该方法提高了时序动作检测的性能。