基于差分多尺度多粒度特征融合的视频文本检索方法

作者:王笛; 李锦峰; 王泉; 万波; 田玉敏; 刘锦辉; 王义峰; 罗雪梅; 安玲玲; 赵辉
来源:2023-02-01, 中国, CN202310050175.2.

摘要

本发明公开了一种基于差分多尺度多粒度特征融合的视频文本检索方法,主要解决现有技术未充分利用视频时序特征及细粒度信息文本标注造成视频文本匹配精度低的问题,其实现方案为:获取视频帧序列及文本标注序列;构建特征提取网络并提取文本标注的全局和局部特征;将视频帧特征按时间序列差分并通过序列特征提取网络与帧特征结合得到视频的局部和全局特征;计算视频和文本标注的全局相似度和局部相似度,计算出损失函数;利用损失函数训练网络;利用训练好的网络计算视频与文本标注的相似度并排序得到检索结果。本发明能减少不同模态之间的语义鸿沟,挖掘视频模态数据中的时序信息,提升跨模态检索精度,可用于视频主题检测和视频应用的内容推荐。