摘要

针对现有基于生成对抗网络的跨模态检索方法不能充分挖掘模态间不变性的问题,提出一种融合全模态自编码器和生成对抗机制的跨模态检索方法.引入2个并行的全模态自编码器,将不同模态的样本嵌入公共空间,每个全模态自编码器不仅重构出自身模态的特征表示,而且还重构出跨模态的特征表示.设计了一个分类器,预测公共空间中嵌入特征的类别,学习并保留样本中的语义判别性.设计了3个判别器,分别判断输入其中的特征所属的模态类别,它们协同工作,充分挖掘模态间的不变性.以平均精度均值为指标评价跨模态检索的精确度,在PascalSentence, Wikipedia和NUS-WIDE-10k这3个公开数据集上进行实验,实验结果表明,与10个包括传统方法和深度学习方法在内的跨模态检索的主流方法进行对比,所提方法在3个数据集上的平均精度均值分别至少提高了4.8%,1.4%和1.1%,证明了所提方法的有效性.