摘要
随着数据的海量型增长,如何提高数据处理的效率已经对现有的数据挖掘算法提出了挑战。样例选择是指从初始数据中,依据既定规则选出能够代表初始数据的样例,从而有效地减少后续工作的数据量。局部敏感哈希方法是一种近似近邻查找算法,利用同类型数据间距离近,发生哈希碰撞概率高的特点查找近似近邻,但该方法是基于概率的随机映射方法,精确度不高。为了解决这个问题,本文提出一种多哈希表投票样例选择算法,通过基于P-stable分布的局部敏感哈希技术将数据映射到欧式空间,设计多个随机哈希函数,利用生成的多个独立的哈希表投票选择出最终的样例。实验结果显示本文提出的算法在压缩比方面较基于P-Stable分布的局部敏感哈希方法平均提高了47%。
- 单位