摘要
本发明公开了一种基于时空域信息交互的视频时刻检索方法,包括以下步骤;获取原始的视频集和查询语句集;构建视频特征预提取模块;构建文本特征预提取模块,得到文本特征;利用视频特征进行多尺度变换,生成多尺度视频特征;利用文本特征进行多尺度的特征提取,生成多尺度文本特征;构建多尺度特征交互模块,生成多尺度交互特征;构建时空域信息融合模块,得到时空域信息特征:构建时刻定位模块,得到最终的起始时间和结束时间:对基于时空域信息交互的视频时刻检索模型进行训练;使用训练完成的基于时空域信息交互的视频时刻检索模型对测试集中的视频和文本对进行实验。本发明能够达到提高视频时刻检索的准确性。
- 单位