基于两阶段分层抽样的近似聚合查询方法

房俊<sup>*</sup>; 赵博; 左昌麒

doi:10.16337/j.1004-9037.2022.05.010

摘要

以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大，准确计算聚合查询结果往往需要全局数据扫描，使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据，复杂聚合查询提供快速的近似答案，在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件，提出了一种两阶段分层抽样方法。首先针对业务特征进行分组，每个分组中使用随机抽样方法进行随机抽样，并评估其抽样效果。再针对抽样效果较差的分组，利用自组织特征映射网络（Self-organizing feature mapping,SOM）对数值进行聚类分组，改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明：本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升；与使用K-means、基于密度的聚类算法（Density-based spatial clustering of applications with noise,DBSCAN）等聚类方法相比，自SOM具有较好的近似查询结果。

单位
北方工业大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 22:33

基于两阶段分层抽样的近似聚合查询方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友