摘要

海量网页和移动图像搜索等新兴应用的不断涌现和发展,使得基于视觉特征的大规模图像检索成为一个极其重要的研究课题。高质量的特征表示是决定视觉检索精度和效率的核心。现有的视觉检索方法大体分为:基于视觉词汇技术映射局部特征为全局表示;基于深度训练方法学习表征性好的全局特征。上述两类方法在图像识别和分类上效果显著,但是在视觉检索,尤其是视觉实例检索任务中的精度受限于多种因素。一方面,传统的底层特征虽具有较好的几何不变性,但普遍存在空间几何信息缺失和高层语义内容表达不够充分等问题;另一方面,近年来主流的深度语义特征通过学习预标记的图像数据集虽然能够携带丰富的高层信息,但往往缺乏底层内容、一定的几何不变性和通用性等;此外,由于视觉词汇构建慢、深度模型训练难且特征维度较高等问题,检索效率也会大大降低。为解决上述问题,本文提出基于特征融合的视觉实例检索方案,主要贡献如下:1)设计了一种能同时包含图像底层信息和高层语义的融合特征,以提高其区分力和鲁棒性;2)基于乘积量化方法对融合特征进行编码,构建了多倒排索引结构以减小计算开销;3)研究了利用局部敏感哈希函数映射融合特征为哈希编码的方法进一步优化索引结构。为丰富视觉特征的信息,本文采用非监督方式提取传统的底层特征与深度语义特征并进行融合,共涵盖图像四个层次的内容:颜色层——基于HSV空间的颜色特征;点层——基于RootSIFT的局部聚合描述符;场景层——基于GoogLeNet模型的全局池化特征;目标层——基于VGG模型改进的区域最大池化特征。通过预先计算图像库单一特征的相似度,为对应特征分配不同权重,进而提出一种串连加权融合的特征(CCRC:Complementary CNN,RootSIFT and CN)来进一步提升检索精度。为加快实例检索的速度,本文设计了一种基于多倒排索引结构有效组织CCRC特征。首先将融合特征原始空间划分为四个子空间并分别进行粗聚类,以构建多索引。之后再次划分特征空间为低维子空间的笛卡尔积进行乘积量化,将得到的乘积量化编码填充索引列表,并分别构建子码书和距离表,以将两个原始高维特征间复杂的欧氏距离计算转换为紧凑的乘积量化编码间简单快速的查找距离表求和操作。在进行视觉实例检索时,首先在多倒排索引上进行一轮初步匹配得到粗候选集,然后对融合特征进行重排序得到最终检索结果。文章进一步对多倒排索引结构进行优化,利用局部敏感哈希函数映射哈希编码替代乘积量化编码,直接计算哈希编码之间的Jaccard距离,避免了复杂的预处理过程。在四个真实图像数据集上对本文方法进行了验证,大量的实验分析与比较显示,提出的融合特征能够取得比单一特征更高的检索精度,索引方案能够显著减小检索时间。与现有先进方法的对比也表明了融合特征的有效性和检索方案的高效性。