摘要
零样本视频分类(zero-shot video classification,ZSVC)采用的点积分类方式容易使神经元产生较高方差,从而导致模型对输入分布的变化非常敏感。针对该问题,采用三维密集网络(3D DenseNet)与余弦相似性相结合的方法,提出了一种基于3D DenseNet的零样本视频分类(3D DenseNet for zero-shot video classification,DZSVC)算法,通过使用余弦相似性的分类方式替代点积分类方式来控制方差的范围,使模型对不同的输入幅值具有更强的鲁棒性。该算法首先将视频数据输入到3D DenseNet中,利用3D DenseNet的密集特性提取更丰富的时间和空间信息,并将提取出来的特征向量映射到公共空间。采用基于余弦相似性的方法对视频进行分类,在UCF101数据集和HMDB51数据集上的准确率分别为32.9%和20.2%,UCF50数据集和HMDB25数据集上的准确率分别为41.4%和23.7%,实验结果表明所提算法具有良好的分类效果。
-
单位呼伦贝尔学院; 上海工程技术大学