摘要

基于CNN-LSTM编解码网络的体育视频分类方法,利用经典的预训练模型提取视频帧空域特征并将其编码为固定长度的语义向量,通过LSTM实现对视频帧序列间的长时依赖关系的建模和语义向量解码,经过分类网络输出视频标签.在公开的具有挑战性的体育视频数据集Sports8和Olympic16上进行了深入的实验.结果表明,该CNN-LSTM编解码网络能够对视频序列的时空特性进行有效建模,在Sports8数据集上取得96.9%的平均分类准确率,比现有最好方法提高4.9%;在Olympic16数据集上取得84.73%的平均分类准确率,比现有最好方法提高约18%.