摘要
视频是数据处理中综合性能最高,包含内容最广的载体。视频题目通过文字表达,内容通过连续图像帧表达,另外部分视频还包含背景音乐或者解说旁白。因此,视频处理即是对文字、图像、声音的多模态处理。着眼于多模态处理技术,提出基于语义空间统一表征的视频多模态内容分析框架,利用多种架构的深度神经网络,对视频的文字、图像、音频进行分别处理,为达到统一的功效,将不同结构的深度神经网络归结到语义空间,通过语义空间进行综合认知。提出的架构清晰、层次分明,对于视频理解的建模具有指导意义。
-
单位中国电子科技集团公司信息科学研究院