摘要
针对视频描述中语义特征不能兼顾全局概括信息和局部细节信息,影响视频描述效果的问题,提出一种视频描述中全局-局部联合语义生成网络GLS-Net.首先利用全局与局部信息的互补性设计全局和局部语义提取单元, 2个单元采用残差结构的多层感知机(residualmulti-layerperceptron,r-MLP)来增强特征提取效果;然后联合概括性全局语义和细节性局部语义增强语义特征的表达能力;最后将该语义特征作为视频内容编码,提升视频描述模型性能.在MSR-VTT和MSVD数据集上,以语义辅助视频描述(semantics-assistedvideocaptioningnetwork,SAVC)网络为基础进行的实验的结果表明, GLS-Net优于现有同类算法,与SAVC网络相比,准确率平均提升6.2%.
-
单位大连民族大学; 机电工程学院