一种视频密集描述方法、装置及介质

作者:肖焕侯; 史景伦; 胡晨晨; 熊静远; 沈卫强
来源:2021-05-06, 中国, CN202110489246.X.

摘要

本发明公开了一种视频密集描述方法、装置及介质,其中方法包括:采用C3D网络对输入视频进行特征提取;根据视频特征和双向SST算法对事件定位模块进行训练;结合事件定位模块、特征损失和基于注意力模型的事件描述模块进行训练,获得密集描述系统;将待处理视频输入密集描述系统进行预测,经过联合排序后,将排序靠前的事件候选框及其对应的描述句子提取出来作为最终的密集描述结果。本发明采用能同时利用过去信息和未来信息的双向SST算法来获得视频的事件候选框;使用基于注意力机制的分层LSTM模型来获得描述句子;使用联合排序的方法来综合定位模块和描述模块的置信度,提高系统整体的密集描述质量,可广泛应用于计算机视觉领域。