摘要
在大规模零样本图像识别任务中,由于图像类别数量大,所以模型训练困难,且模型的训练成本高。为了解决这些问题,设计了高效的零样本学习算法框架,在低训练成本的前提下提高了模型识别精度和泛化能力。该算法框架中定义了公共空间,利用图像分支网络和语义分支网络分别将不同模态的特征向量映射至公共空间完成模型训练和推理。在图像分支网络中,为了改变图像特征向量的分布,使用感知机网络将图像特征向量映射至公共空间;在语义分支网络中,采用图卷积网络将语义向量映射至公共空间。同时,设计损失函数对公共空间进行约束,使得公共空间中不同类别的区分度被增大,利于模型训练。在ImageNet数据集上的实验结果显示,在“2-HOPS”测试集上,与不需要微调的现有方法相比,该算法框架的精度提高了1.1%,训练时间节省了57.8%;与需要微调的现有算法相比,该算法框架在不损失精度的情况下节省了98.4%的训练时间。实验结果表明,该算法框架以低训练成本实现了模型性能的提升。
- 单位