摘要
动态数据库关联挖掘方法存在挖掘时运行时间长、内存使用量大、各节点任务分布不均等问题,因而提出了基于大数据集的动态数据库关联挖掘研究。采用大数据集中分布式计算,分布式存储动态数据库中的历史数据;针对其存储的数据序列,进行数据修剪重排分组和计算量预估与均衡化分组,形成动态数据库历史数据;更新动态数据库新增数据,分别挖掘动态数据库中的历史数据和新增数据,并将数据合并,完成动态数据库关联挖掘。结果表明,采用该方法进行动态数据库关联挖掘,受到支持度影响较小,运行速度快,对内存使用量低,能均匀分配各节点的计算量。
-
单位福建林业职业技术学院