摘要

现有零样本视频分类(Zero-Shot Video Classification,ZSVC)采用的点积分类方式,容易使神经元产生较高方差,从而导致模型对输入分布的变化非常敏感。针对该问题,本文采用三维密集网络(3D DenseNet)网络与余弦相似性相结合的方法,提出了一种改进的零样本视频分类(3D Densenet Zero-shot Video Classification ,DZSVC)算法,使用余弦相似性的分类方式去替代点积的分类方式来控制方差的范围,使模型对不同的输入幅值具有更强的鲁棒性。该算法首先将视频数据输入到3D DenseNet中,然后利用3D DenseNet的密集特性提取更丰富的时间和空间信息,并将提取出来的特征向量映射到公共空间。采用基于余弦相似性的方法对视频进行分类,在UCF101和HMDB51上的准确率分别为32.9%和20.2%,UCF50和HMDB25上的准确率分别为41.4%和23.7%,实验表明本文算法具有良好的分类效果。