基于Vision Transformer和语义学习的视频描述模型

作者:王翀; 查易艺; 顾颖程; 宋玉; 程环宇; 林杉*
来源:印刷与数字媒体技术研究, 2023, (05): 49-68.
DOI:10.19370/j.cnki.cn10-1886/ts.2023.05.005

摘要

针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次,利用多模态融合网络融合多种模态特征,使不同模态进行语义对齐;然后,基于Vision Transformer网络建立一种长距离依赖性编码器,并结合时间注意力机制,在生成每个单词时有选择性地聚焦视频中的特定帧;最后,在解码阶段,利用LSTM循环网络并引入语义信息,使模型生成的描述更具可读性。通过在MSR-VTT数据集上进行测试,本研究模型可以实现0.425、0.288、0.624和0.538分的BLEU4、METEOR、ROUGE-L和CIDEr得分;在MSVD数据集上的BLEU4、METEOR、ROUGE-L和CIDEr得分分别达到了0.564、0.369、0.741和0.964分。相比当前主流视频内容描述模型,所提模型具有更好的描述生成效果。

全文