基于Apache Spark的海量图像并行检索

曹健; 张俊杰<sup>*</sup>; 李海生; 蔡强

摘要

针对海量图像如何高效存储和快速检索问题,结合Spark大数据平台和视觉词袋图像(BoVW)检索方法,设计了一种基于Bo VW模型的海量图像并行检索框架。首先,通过BoVW模型对图像进行特征提取、特征聚类和向量表示等预处理过程;其次,对Hadoop分布式文件系统(HDFS)中将预处理结果实现高效和稳定的存储;最后,框架利用Spark平台进行并行检索,完成图像间的相似度匹配。在ImageNet图像集上,利用图像的特征提取和聚类、向量表示等方法作为基础实验,采用扩展率和数据伸缩率证明框架稳定性的情况下,通过与传统框架进行对比,该系统加速比均在58%以上,检索准确率保持一致。实验结果表明,该方法具有更强的稳定性和更快速的检索效果。

单位
北京工商大学

收藏分享被引浏览

更新时间：2024-04-25 06:07

基于Apache Spark的海量图像并行检索

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友