近似邻近搜索随机算法

作者:赵永国; 陈奕奕; 吴峻峰
来源:科技通报, 2018, 34(12): 129-133.
DOI:10.13774/j.cnki.kjtb.2018.12.027

摘要

通过研究近似邻近查询算法,提出了一种基于随机化思想的KANN(K-approximate nearest-neighbor algorithm)算法,改进相似性搜索的速度和精度。算法在两个阶段采用了随机思想:一是在编码时,结合谱哈希算法和随机矩阵逼近法得到数据点的二进制编码。二是在查询时,为降低搜索时间成本,先对原数据集进行初次阈值筛选得到一个查询点的一个近似类别集。由于近似类别中存成对距离很小,采用基于距离搜索算法精度下降。本论文提出采用统计秩的思想,保留距离排序的信息,在近似类别的数据集进行多次抽样排序,得到k个近似邻居。本文提出的近似邻近检索框架采用多环节过滤数据,并控制搜索误差,在速度和精度上得到了改进。

全文