摘要
针对分布在不同节点的数据的函数依赖挖掘问题进行了研究,提出了一种分布式函数依赖挖掘算法,该算法是以传统的函数依赖挖掘算法Tane算法为基础设计的。其基本思想是:首先,使用Tane算法挖掘出各个节点的函数依赖;然后,得到各个节点的公共函数依赖;最后,以公共函数依赖的左部公共属性值为散列值对数据进行重分布并对候选函数依赖进行验证,得到最终的函数依赖。该算法的实现过程中帮助解决的数据迁移量大和负载不均衡的问题,通过在真实数据上的对比分析验证了算法的可行性。
-
单位江苏理工学院