摘要
针对视频场景中底层特征与高层语义特征之间存在的"语义鸿沟"及多特征融合等问题,根据视频多模态之间时序关联共生的特性,提出了一种基于深度网络的多模态视频场景分割算法,从每个镜头中提取丰富的底层特征及语义概念特征,将其特征向量串联的整体特征向量作为深度网络的输入并进行嵌入空间学习,通过计算两个镜头整体特征向量之间的距离得到语义相似性的度量值,然后最小化时间段内距离的平方和对镜头进行聚类处理,最终得到语义层面的场景。实验结果表明,该算法在分类精度上具有良好的性能,能对视频场景实现有效分割。
- 单位