摘要

由于在大规模数据集上执行精确查询耗时长,因此近似查询处理技术常被应用于在线分析处理,以求以较短的交互延迟返回查询结果,并尽可能地降低查询误差。现有的学习型近似查询处理技术与底层数据解耦,将IO密集型计算转化为CPU密集型计算,但是由于计算资源的限制,其通常基于随机的数据样本进行模型训练,此类训练数据会引起稀有群组的缺失,导致模型预测准确性不够高。针对这一问题,本文提出一种基于分层样本学习的混合型和积网络模型,并设计了基于该模型的近似查询处理框架。分层样本能够有效避免稀有群组的缺失,基于该样本训练的模型预测准确性大幅提高。此外,针对数据动态更新的情况,本文提出模型自适应更新策略,使得模型能够及时检测到数据偏移并自适应地执行更新。实验结果表明,与基于抽样和基于机器学习的近似查询处理方法相比,该方法在真实数据集和合成数据集上的平均相对误差分别降低了约18.3%和2.2%;在数据动态更新的场景下,模型的准确性和查询时延均呈现出良好的稳定性。

全文