摘要
一种基于空间时序特征的视频文本检索方法,利用三种不同类型的神经网络对视频的空间时序语义信息进行了层次化细粒度全面的视频统一表征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络。本发明可用于视频自然语言文本相互检索,分层的特征提取方法充分挖掘了视频模态数据更具判别性的复杂时空语义信息,视频文本公共语义嵌入网络有效地学习不同模态异构数据语义特征同分布的公共空间特征表示,公共空间特征表示准确衡量了视频和自然语言文本高阶特征间的语义关联,提高了视频自然语言文本检索的精度。
- 单位