一种新的快速挖掘频繁子树算法

作者:唐德权*; 刘绪崇*
来源:湘潭大学学报(自然科学版), 2022, 44(02): 96-106.
DOI:10.13715/j.cnki.nsjxu.2022.02.006

摘要

挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用扩展操作生成候选子树集,进一步提出有根有序标签树的挖掘算法.通过确定自由树中心,将自由树转换成有根有序标签树.该方法不仅解决了一般自由树规范化问题,而且能直接应用到半结构化数据集中.实验结果表明,该方法能够快速有效地从大型标签数据集中挖掘所有频繁子树.

全文