本发明公开了一种基于视频字幕的多模态视频摘要提取方法,包括:1获取视频的帧特征表示,2.获取字幕的特征表示,3.自动化的视频帧重要性评估,5.优化摘要器模型,6.优化基于关键帧的视频字幕生成器。本发明能快速输出短视频的关键帧集合及其对应的字幕,其中,关键帧集合以较少数目的视频帧以视觉的形式反映了视频的整体内容,相匹配的字幕则以文本的形式去概括视频画面,帮助用户更有效率的筛选短视频,并能节约存储空间和计算资源,更有利于部署应用于终端设备。