摘要
随着拍摄设备的广泛普及,互联网上的图像数据呈现爆炸性的增长。大规模图像检索技术具有非常大的研究和实用价值,在安防、娱乐以及社会民生等各领域都有着非常广泛的应用。哈希方法是当前解决大规模图像检索问题的研究热点,通过训练一组哈希函数把原始数据从高维的特征空间映射到低维的二进制汉明空间,对每个样本产生紧凑的哈希编码表示,最后通过计算图像哈希编码之间的汉明距离来评估图像之间的相似度关系。目前已经有大量哈希算法被提出,并取得了较好的检索效果。但是,已有的哈希算法大都是针对给定的静态数据环境进行检索,而真实的数据环境往往是动态的,新的图像会不断出现。此外,在动态环境下图像样本所服从的数据分布可能会随着时间而逐渐改变,即发生了概念漂移现象。此时,根据原始数据集训练的哈希函数不能有效地适应当前的数据环境,对新样本产生的哈希编码无法继续保持样本之间的语义相似度关系,导致哈希算法的检索效果不断下降。因此,在动态环境下发生概念漂移时,如何更新训练哈希函数,以保持哈希算法检索的准确度和高效性,成了一个亟待解决的问题,也是本文的研究核心。在本文中我们围绕这一核心问题展开研究,从不同的角度提出四种动态哈希算法以解决发生概念漂移时的图像检索问题。本文的主要贡献总结如下:1.本文提出一种基于多哈希表系统的增量式哈希算法(ICH),训练多个哈希表分别保存不同时刻的数据相似性信息以适应概念漂移。ICH算法基于语义相似度一致性和哈希函数均分性,评估每个哈希表对于最新数据环境的检索性能,对多个哈希表进行加权。然后根据哈希表的权重对各哈希表检索结果进行评分排序,得到最终的检索结果。该算法是已知的第一种解决动态环境下发生概念漂移问题的哈希检索算法。2.本文提出一种基于哈希函数选择的动态哈希算法(IBL)。根据新出现样本所包含的相似度信息,训练得到新的哈希函数,并加入哈希函数池。通过评估哈希函数池中哈希函数对于当前数据环境的表现,挑选出最优的哈希函数组合。在挑选哈希函数的目标函数中,除了最大化哈希函数的语义相似度一致性和哈希函数的均分性,同时也要最小化哈希函数之间的相关性来避免哈希编码之间的信息冗余。3.本文提出一种基于概念保留的动态哈希算法(CPH),把发生概念漂移的新数据映射回已有的概念,避免了对所有图像哈希编码的频繁更新。CPH算法训练哈希函数的目标函数包括三个部分:同构相似度保留,哈希编码均分性,和异构相似度保留。通过最优化目标函数得到最新的哈希函数。CPH算法是已知的第一种能够在更新哈希函数时避免更新所有图像哈希编码的动态哈希算法。4.本文提出一种基于查询自适应权重的互补增量式哈希算法(CIHR)。前文的增量式哈希算法使用多个哈希表,但是每个哈希表都是使用不同时刻出现的数据子集独立训练的,没有考虑哈希表之间的相互关系。本章提出的互补增量式哈希算法中,新哈希表的训练不仅是基于最新的数据子集,同时还纠正了已有哈希表的错误。此外,该算法还对哈希函数赋予查询自适应权重,最后通过加权汉明距离对样本之间的相似度进行计算。综上所述,本文提出的四种哈希算法在检索领域形成了一个新的研究方向,即解决动态环境下发生概念漂移问题的哈希检索算法。我们期望这些工作能够引发更多有趣而且有用的后续研究,促进图像检索领域的研究和应用发展。
- 单位