摘要
聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding, LLE)和高斯混合模型(Gaussian Mixture Model, GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。
-
单位河北经贸大学