视频中的未来动作预测研究综述

作者:张天予; 闵巍庆; 韩鑫阳; 蒋树强; 芮勇
来源:计算机学报, 2023, 46(06): 1315-1338.
DOI:10.11897/SP.J.1016.2023.01315

摘要

预测未来是人类与生俱来的能力,也是实现人工智能的重要手段.近年来,视频中的未来动作预测逐渐成为计算机视觉领域的研究热点,具有重要的理论研究意义,并在安防监控、自动驾驶、家庭服务、工业协作以及虚拟现实等方面有着广泛的应用前景.本文对视频中的未来动作预测领域进行综述,首先明确定义了未来动作预测的研究框架.随后概述了该领域的发展历史,并重点介绍了短期动作预测和长期动作预测两种主要的问题形式.然后从模型结构、数据模态、算法策略和预测对象等不同维度对主要方法和技术进行了总结.接下来简要归纳了视频中的未来动作预测领域常用的数据集,并给出了不同方法在主流数据集上的性能对比和分析.最后本文围绕扩展现有数据集的规模和多样性、缩短模型的推理时间、从无标注或少量标注数据中学习等未来可能的研究方向进行了总结和展望.

全文