摘要
由于多源异构数据集通常存在于多领域中,其特性导致数据的可利用率较低。为保证对各类数据的利用效果,研究基于随机森林的频繁项集智能挖掘算法。依据频繁项集特征,采用改进FP-tree算法挖掘频繁项集后,利用随机森林算法完成频繁项集分类;通过选取高精度子森林、聚类选择多样性子森林优化随机森林算法,改善随机森林算法运算时内存占用过大的问题,提升算法分类精度,实现频繁项集智能挖掘。测试结果表明,所提算法具备多样性、可在平均误差较低的情况下完成频繁项集挖掘,在最佳的FP-tree树数量和类别数量下,聚类正确率较高,整体挖掘误差较低,能够提升频繁项集的挖掘和分类效果。
-
单位福建师范大学闽南科技学院; 西藏民族大学