基于跨模态文本相关注意力的时序语言定位方法

何立火; 邓夏迪; 黄子涵; 唐杰浩; 王笛; 高新波; 路文

摘要

本发明公开了一种基于跨模态文本相关注意力的时序语言定位方法,主要解决现有技术在的文本与视频跨模态融合中缺乏语义相关性的问题。其方案为：获取训练数据集和测试数据集,并提取训练数据集的视频及文本特征；构建基于跨模态文本相关注意力的时序语言定位模型,利用文本特征与视频特征进行融合获取融合特征,使用文本语义信息与融合特征注意力的交互,实现视频的时序定位；使用训练数据集的视频及文本特征对时序语言定位模型进行训练；将测试数据集输入到训练好的时序语言定位模型得到跨模态文本相关注意力的时序语言定位结果。本发明能在各种复杂的跨模态视频中检索出丰富的相关特征信息、提高了检索精度,可用于检索视频中对应于文本的片段。

单位
西安电子科技大学

收藏分享被引浏览

更新时间：2024-07-18 02:06

基于跨模态文本相关注意力的时序语言定位方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友