摘要

设计实现一个基于Hadoop集群的云平台中医数据挖掘系统。该系统集数据管理与数据挖掘于一体,主要通过数据挖掘获取中医药中有用的信息从而实现中医辅助诊断。针对传统单机对大数据集存储和计算能力的匮乏问题,总结FP-growth算法的并行化方案:将事务数据库切分成若干个数据存储到集群的多个节点中,再经过计数及分组后进行局部FP-growth处理;在构建FP-tree时,对项顺序进行动态调整以寻找最优化的FP-tree,减少空间复杂度来提升挖掘效率。结果表明,该系统具有良好的交互性和较完备的功能,挖掘结果与实际理论基本匹配,对于临床医生诊断具有一定的辅助作用。