自监督视频表征学习综述

作者:田春娜; 叶彦妤; 单笑; 丁宇轩; 张相南
来源:西安电子科技大学学报, 2021, 48(05): 222-230.
DOI:10.19665/j.issn1001-2400.2021.05.025

摘要

学习高质量的视频表征有助于机器更准确地理解视频内容。基于监督学习的视频表征需要标注海量的视频数据,而视频标注极其费时费力,因而不需要标注数据的自监督视频表征方法成为研究的热点。自监督视频表征学习利用海量的未标注数据,将视频自身的时空连续性等作为监督信息来设计辅助任务进行表征学习,并将学习到的视频表征应用于下游任务。鉴于缺少对自监督视频表征学习新进展的综述,首先根据辅助任务采用的信息不同,从时序信息、时空信息和多模态信息方面,对近三年的自监督视频表征学习算法进行分析和总结;然后,在动作识别和视频检索两个下游任务中,对比自监督视频表征学习模型的实验结果,并分析模型性能的优劣及其原因;最后,总结自监督视频表征学习依然存在的问题并对其发展进行展望。

全文