摘要

现有基于度量学习的跨模态检索算法用于跨模态人脸检索任务时缺乏对视角差异和域差异的关注,并且在度量学习过程中缺乏对全局信息的学习,构建了大量的冗余三元组。为此,文中提出了一种基于度量学习的跨模态共同表达生成算法,采用偏航角等变模块补偿偏航角差异以获取具有鲁棒性的图像特征,使用多层注意力机制获取具有可分性的视频特征;使用全局三元组和局部三元组共同训练跨模态共同表达生成网络,以提升度量学习的一致性和准确性,同时通过半困难三元组筛选来加速损失函数的收敛;提出了结合域校准和迁移学习的域适应算法,以提升共同表达的泛化性。在PB、YTC和UMD人脸视频数据集上的实验结果表明,文中算法有效地提升了跨模态人脸检索的准确性,通过少数样本微调跨模态共同表达生成网络,可有效提升目标域图像跨模态检索的准确性。