多模态特征融合的视频记忆度预测

常诗颖; 胡燕

摘要

随着网络视频的爆炸式增长，视频记忆度成为热点研究方向。视频记忆度是衡量一个视频令人难忘的程度指标，设计自动预测视频记忆度的计算模型有广泛的应用和前景。当前对视频记忆度预测的研究多集中于普遍的视觉特征或语义因素，没有考虑深度特征对视频记忆度的影响。着重探索了视频的深度特征，在视频预处理后利用现有的深度估计模型提取深度图，将视频原始图像和深度图一起输入预训练的ResNet152网络来提取深度特征；使用TF-IDF算法提取视频的语义特征，并对视频记忆度有影响的单词赋予不同的权重；将深度特征、语义特征和从视频内容中提取的C3D时空特征进行后期融合，提出了一个融合多模态的视频记忆度预测模型。在MediaEval 2019会议提供的大型公开数据集（VideoMem）上进行实验，在视频的短期记忆度预测任务中达到了0.545（长期记忆度预测任务：0.240）的Spearman相关性，证明了该模型的有效性。

单位
武汉理工大学

收藏分享被引浏览

更新时间：2024-03-19 15:14

多模态特征融合的视频记忆度预测

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友