摘要
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择方法是解决此类问题的方法之一,将原始数据依据既定规则选出代表性的样例,能够有效地降低后续工作的难度。因此提出了一种基于哈希学习的投票样例选择算法,算法分为三个部分:首先通过主成分分析(PCA)方法将高维数据映射到低维空间,然后利用k-means算法结合矢量量化方法进行迭代运算,将数据用聚类中心的哈希码表示,接着将分类后的数据按比例进行随机选择,多次独立运行算法后投票选择出最终的样例。该算法与压缩近邻算法(CNN)和大数据线性复杂度样例选择算法(LSH-IS-F)在压缩比方面比较结果平均提升了25%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比,在7个数据集上的实验结果显示本文算法在精确度相似的情况下在压缩比和运行时间方面较随机型哈希有较大优势。
- 单位