摘要

针对海量图像如何高效存储和快速检索问题,结合Spark大数据平台和视觉词袋图像(BoVW)检索方法,设计了一种基于Bo VW模型的海量图像并行检索框架。首先,通过BoVW模型对图像进行特征提取、特征聚类和向量表示等预处理过程;其次,对Hadoop分布式文件系统(HDFS)中将预处理结果实现高效和稳定的存储;最后,框架利用Spark平台进行并行检索,完成图像间的相似度匹配。在ImageNet图像集上,利用图像的特征提取和聚类、向量表示等方法作为基础实验,采用扩展率和数据伸缩率证明框架稳定性的情况下,通过与传统框架进行对比,该系统加速比均在58%以上,检索准确率保持一致。实验结果表明,该方法具有更强的稳定性和更快速的检索效果。