摘要
传统算法数据划分冗余度和倾斜度高,无用连接数据多,降低负载均衡性,对整体效率产生不好的影响,不适于实际应用。为此,面向混合动态数据库集群提出一种新的并行空间连接优化算法。采用网格划分法对数据进行划分,依据空间数据划分结果获取数据分布状态,计算节点按照数据分布状态得到候选集。通过平面扫描形成若干子空间连接的子任务,利用构建节点花费模型,依据花费模型对并行空间连接所需的平均节点访问个数进行评估,把候选任务集分配至不同计算节点,在不同节点执行并行空间连接操作。通过边界过滤策略,删除不可能有结果的元组,提高效率,增强算法的实用性。实验结果表明,所提算法适于实际应用,效率高。
-
单位江西农业大学南昌商学院