传统的零样本学习方法大多采用一个分离的两步管道,从预先训练的CNN模型中提取图像特征,再利用固定的图像特征来学习嵌入空间,导致零样本学习任务并不能捕捉到辅助信息中丰富的语义信息。对此,借助胶囊网络,提出一种端到端、可训练的模型。相比卷积网络,胶囊网络对物体的平移、旋转和缩放等变化表现出更强的鲁棒性。该模型赋予嵌入空间更强的泛化能力,为零样本学习提供了更多辅助线索,实验结果显示该方法优于现有的识别方法。