摘要
针对现有视频记忆度预测模型存在的仅利用单模态特征、多模态关联挖掘不充分、语义表示建模范式单一等问题,提出一种基于多模态自注意力网络的视频记忆度预测方法。本文方法由语义表示学习子网络和语义建模子网络构成。语义表示学习子网络利用生成对抗学习充分挖掘模态间关联并完成多模态信息的融合;语义建模子网络则采用自注意力机制,能够在凝练全局信息的同时最大程度地保留局部信息。在公开数据集上的实验结果表明本文方法的预测性能优于现有方法。此外,消融实验也进一步验证了本文语义表示学习及语义建模子网络在视频记忆度预测任务上的有效性。
- 单位