摘要
一种基于门的视频上下文多模态感知特征优化方法,具体步骤为,步骤一:输入RGB视频序列和光流序列;步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;步骤三:输入双流特征优化结构;步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。
- 单位