摘要
为提高大数据时代半结构化数据集聚类分析效率,提出一种以数据集频繁子树模式为特征的半结构化数据集聚类方法。提出一种频繁子树模式挖掘方法FSTPMiner,使用“编码树”数据结构对半结构化数据进行编码,通过编码树将树结构频繁模式挖掘过程转化为线性表结构频繁模式挖掘,提高挖掘效率。使用频繁子树模式作为特征并构建特征向量空间,基于经典凝聚型层次聚类方法对半结构化文档数据集进行聚类。经过对照实验,与Costa算法、ICQB算法和Damalagas算法相比,在保证聚类结果正确率前提下,对半结构化数据集聚类效率方面具有优势。
- 单位