摘要

基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习将源域中训练数据的知识迁移到目标域中,可以有效解决训练数据不足的问题。现有迁移学习的主要方法是将知识从单模态源域迁移到多模态目标域,如果源域中已存在多种模态信息,非对称迁移会忽略源域中包含的潜在的模态间语义信息,同时不能很好地提取源域与目标域中相同模态的相似性,进而减少域差异。对此,提出深度双模态源域对称迁移学习的跨模态检索(DBSTL)方法,旨在实现从双模态源域到跨模态目标域的知识迁移,获得跨模态数据的公共表示。它由模态对称迁移子网和语义一致性学习子网构成。模态对称迁移子网采用混合对称结构,在知识迁移过程中,使得模态间信息具有更高的一致性,且能减少源域与目标域间的差异。语义一致性学习子网中所有模态共享相同的公共表示层,在目标域的监督信息指导下保证跨模态语义的一致性。DBSTL充分利用双模态源域的潜在信息进行对称迁移学习,在监督信息指导下保证模态间语义的一致性,提高了公共表示空间中图像文本分布的相似性。实验结果表明,在Pascal、NUS-WIDE-10k和Wikipedia数据集上,所提方法的平均精度均值较对比方法中的最好结果分别提升了8.4、0.4、1.2个百分点。