摘要
本发明公开了一种基于跨模态文本相关注意力的时序语言定位方法,主要解决现有技术在的文本与视频跨模态融合中缺乏语义相关性的问题。其方案为:获取训练数据集和测试数据集,并提取训练数据集的视频及文本特征;构建基于跨模态文本相关注意力的时序语言定位模型,利用文本特征与视频特征进行融合获取融合特征,使用文本语义信息与融合特征注意力的交互,实现视频的时序定位;使用训练数据集的视频及文本特征对时序语言定位模型进行训练;将测试数据集输入到训练好的时序语言定位模型得到跨模态文本相关注意力的时序语言定位结果。本发明能在各种复杂的跨模态视频中检索出丰富的相关特征信息、提高了检索精度,可用于检索视频中对应于文本的片段。
- 单位