基于预训练模型的视频文本检索方法

作者:王笛; 王泉; 李锦峰; 万波; 田玉敏; 刘锦辉; 王义峰; 罗雪梅; 安玲玲; 赵辉
来源:2022-07-07, 中国, CN202210804157.4.

摘要

本发明公开了一种基于预训练模型的视频文本检索方法,主要解决现有方法中数据特征异质性及冗余级联造成视频文本匹配精度低的问题;方案包括:1)获取视频数据集的帧序列及文本标注切分产生的文本序列;2)采用图文预训练模型协同提取视频和文本的特征;3)将视频以块级联形式映射,同时将协同提取应用到视频的聚合阶段,以文本表征指导聚合视频帧级特征;4)加入交叉方向上的先验概率并使用分散约束损失,完成模型训练;5)利用训练好的视频文本匹配模型得到最终检索结果。本发明能够有效减少不同模态之间的语义鸿沟,充分挖掘视频模态数据中的复杂时空信息,提升跨模态检索精度。