摘要

本发明公开了一种两类基于近似度分布的分层图抽样方法,其特点采用k-means聚类算法获取图中节点的近似度分布,并给出k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值,然后在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,并根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性,最后采用常用指标评价抽样结果的准确性。本发明与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题。