基于语义空间统一表征的视频多模态内容分析技术

张德; 王子玮; 张峰

doi:10.16280/j.videoe.2017.h7.027

摘要

视频是数据处理中综合性能最高,包含内容最广的载体。视频题目通过文字表达,内容通过连续图像帧表达,另外部分视频还包含背景音乐或者解说旁白。因此,视频处理即是对文字、图像、声音的多模态处理。着眼于多模态处理技术,提出基于语义空间统一表征的视频多模态内容分析框架,利用多种架构的深度神经网络,对视频的文字、图像、音频进行分别处理,为达到统一的功效,将不同结构的深度神经网络归结到语义空间,通过语义空间进行综合认知。提出的架构清晰、层次分明,对于视频理解的建模具有指导意义。

单位
中国电子科技集团公司信息科学研究院

全文

访问全文

收藏分享被引浏览

更新时间：2019-05-09 22:32

基于语义空间统一表征的视频多模态内容分析技术

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友