摘要

针对基于传统深度学习的视频预测任务中对数据空间特征提取效果不佳及预测精度低的问题,提出一种结合内卷与卷积算子(CICO)的视频预测模型。该模型主要通过以下三个方面提高视频序列的预测性能:首先,采用不同大小的卷积核来增强对数据多粒度空间特征的提取能力。较大的卷积核能够提取更大空间范围的特征,而较小的卷积核可更精确地捕获视频目标的运动细节,实现对目标多角度表征学习;其次,用计算效率更高、参数更少的内卷算子替代核较大的卷积算子,内卷通过高效的通道间交互避免了大量的不必要参数,在降低计算和存储成本的同时提升模型预测能力;最后,引入核为1×1的卷积进行线性映射,增强不同特征之间的联合表达,提高了模型参数的利用效率和预测的鲁棒性。通过多个数据集对该模型进行全面测试,结果表明,相较于目前最优的SimVP模型,本模型在多项指标上均有显著提升。在移动手写数据集上,均方误差(MSE)和平均绝对误差(MAE)分别降低25.2%和17.4%,在北京交通数据集上,均方误差降低1.2%,在人体行为数据集上,结构相似性指数(SSIM)和峰值信噪比(PSNR)分别提高0.66和0.47%。可见,所提方法在提升视频预测精度方面十分有效。