摘要
针对当前视频帧预测模型中存在的预测准确度较差和物体结构信息丢失等问题,提出了一种动态卷积生成对抗网络。在生成网络中,首先使用卷积长短时记忆网络初步提取输入视频流的图像特征,然后利用卷积神经动态平流单元对视频流中的运动特征进行提取, 最后将上述两种特征组合后输出一组预测视频帧;在判别网络中,采用一个3D卷积网络一次性接受全部视频帧。在实验中,使用Adam方法优化模型的参数,采用KTH和BAIR Robot Pushing数据集作为训练数据集。实验结果表明:无论是在长时间视频帧预测准确度和物体结构信息保留方面,还是人眼的主观感受上,动态卷积生成对抗网络均优于变分生成对抗网络,其在结构相似性度量指标下提高了14.5%,在学习感知图像块相似性指标下提高了7.69%,并且生成的预测视频更加流畅,具有更高的实用价值。
-
单位电子信息工程学院; 河北工业大学